Japan Association for Medical Informatics

[3-B-4-02] LLMの実用化を加速する高効率学習技術

*Satoshi Kataoka1, John Lagerling1 (1. Fluxoid AI Inc. (U.S.))

大規模言語モデル(LLM)の目覚ましい発展の一方で、その商用化、特にLLM単体での商品化は未だ発展途上にある。OpenAI ChatGPTやGoogle Gemini Proといった商業的な成功事例は、一兆円を超える莫大な投資の上に成り立っており、LLMの実用化には多大なコストが必要であるというのが現状である。一方、我が国としても規模的な制約の中での学習面、あるいは利用応用面などでの工夫などで競争力を高めていく努力が必要であり急務の課題となっている。
 本講演では、演者のGoogle本社でのソフトウェアエンジニアとしてTensorFlowフレームワークを開発した経験や、アメリカのStartupにてAI統括として製品へのLLMの組み込みを行った経験を踏まえ、大規模な開発が難しい中・小規模の開発者が、どのようにして実用的なLLMを開発できるのか、その効率化の可能性を秘めた手法について利用するシチュエーションを踏まえて紹介する。具体的には、計算資源の制約を克服する手法として Flassh Attention, LoRAの様々なバリエーション、また破滅的忘却を抑えつつ新しいデータを継続的に学習することを可能にする手法として CPT (Continual Pre-training of LLM)等、特定のデータに特化してデータを変形させて学習させる手法として Spreadsheet LLM、LLM実行時もしくは訓練時に外部データベースと連携させる方法 GraphRAG、などについて概説し、応用事例について紹介する。
 さらに、LLMの性能向上には、報酬を定義することで、人為的な訓練データでAIに新しい機能を学習させることができる強化学習が有効であると考えられている。このような強化学習を用いた新しいLLM改善の手法としてDPOについても紹介し、LLMの今後の発展について語る。