日本語での対話・作文性能に力点を置いた大規模言語モデルの開発

○西澤 克彦

10:00 〜 10:20

[3G1-GS-6-04] 日本語での対話・作文性能に力点を置いた大規模言語モデルの開発

公募・公開型によるLLM開発プロジェクト "Tanuki" の報告

○西澤克彦¹、畠山歓²、森孝夫³、染谷実奈美⁴、西嶋泰志、西前和隆⁵、太田晋⁶、原田憲旺⁷、小橋洋平⁷、小島武⁷、岩澤有祐⁷、松尾豊⁷ (1. パナソニックホールディングス株式会社、2. 東京科学大学、3. 株式会社デンソー、4. 情報セキュリティ大学院大学、5. 異業種データサイエンス研究会、6. 東京工科大学、7. 東京大学)

キーワード：大規模言語モデル、合成データ、GENIAC

近年，大規模言語モデル（LLM）が急速に進歩する一方，その開発は海外が先行しており，日本国内の開発力強化が求められる．本稿では，経済産業省とNEDOによるGENIACプロジェクトの採択事業者である，松尾・岩澤研究室によるLLM開発を報告する．本事業は，国内の人材育成と開発力強化を目標として，同研究室の運営の下，公募の有志が8 Bおよび，8×8 Bのモデルをフルスクラッチから開発した．開始時の2024年4月において，国内組織がフルスクラッチから開発したモデルは，対話・作文性能が十分とは言えず，海外の学習済みモデルをベースに日本語能力を強化する手法が優勢であった．本開発では，対話・作文性能の向上を目的に合成データを活用した学習を行った．当該性能の評価指標として一般的な”Japanese MT-Bench”において，8Bでは既存の10B級のモデルを上回り，8×8BモデルはGPT-3.5に匹敵し，国産フルスクラッチモデルではSOTA同等を実現した．開発したモデル・学習コードはApache License 2.0として公開しており，日本語LLMの学術研究や産業応用に貢献するものである．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3G1-GS-6] 言語メディア処理：

[3G1-GS-6-04] 日本語での対話・作文性能に力点を置いた大規模言語モデルの開発

公募・公開型によるLLM開発プロジェクト "Tanuki" の報告

パスワード