10:00 〜 10:20
[3G1-GS-6-04] 日本語での対話・作文性能に力点を置いた大規模言語モデルの開発
公募・公開型によるLLM開発プロジェクト "Tanuki" の報告
キーワード:大規模言語モデル、合成データ、GENIAC
近年,大規模言語モデル(LLM)が急速に進歩する一方,その開発は海外が先行しており,日本国内の開発力強化が求められる.本稿では,経済産業省とNEDOによるGENIACプロジェクトの採択事業者である,松尾・岩澤研究室によるLLM開発を報告する.本事業は,国内の人材育成と開発力強化を目標として,同研究室の運営の下,公募の有志が8 Bおよび,8×8 Bのモデルをフルスクラッチから開発した.開始時の2024年4月において,国内組織がフルスクラッチから開発したモデルは,対話・作文性能が十分とは言えず,海外の学習済みモデルをベースに日本語能力を強化する手法が優勢であった.本開発では,対話・作文性能の向上を目的に合成データを活用した学習を行った.当該性能の評価指標として一般的な”Japanese MT-Bench”において,8Bでは既存の10B級のモデルを上回り,8×8BモデルはGPT-3.5に匹敵し,国産フルスクラッチモデルではSOTA同等を実現した.開発したモデル・学習コードはApache License 2.0として公開しており,日本語LLMの学術研究や産業応用に貢献するものである.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。