2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[3G1-GS-6] 言語メディア処理:

2025年5月29日(木) 09:00 〜 10:40 G会場 (会議室1002)

座長:高村 大也(産業技術総合研究所)

10:00 〜 10:20

[3G1-GS-6-04] 日本語での対話・作文性能に力点を置いた大規模言語モデルの開発

公募・公開型によるLLM開発プロジェクト "Tanuki" の報告

○西澤 克彦1、畠山 歓2、森 孝夫3、染谷 実奈美4、西嶋 泰志、西前 和隆5、太田 晋6、原田 憲旺7、小橋 洋平7、小島 武7、岩澤 有祐7、松尾 豊7 (1. パナソニックホールディングス株式会社、2. 東京科学大学、3. 株式会社デンソー、4. 情報セキュリティ大学院大学、5. 異業種データサイエンス研究会、6. 東京工科大学、7. 東京大学)

キーワード:大規模言語モデル、合成データ、GENIAC

近年,大規模言語モデル(LLM)が急速に進歩する一方,その開発は海外が先行しており,日本国内の開発力強化が求められる.本稿では,経済産業省とNEDOによるGENIACプロジェクトの採択事業者である,松尾・岩澤研究室によるLLM開発を報告する.本事業は,国内の人材育成と開発力強化を目標として,同研究室の運営の下,公募の有志が8 Bおよび,8×8 Bのモデルをフルスクラッチから開発した.開始時の2024年4月において,国内組織がフルスクラッチから開発したモデルは,対話・作文性能が十分とは言えず,海外の学習済みモデルをベースに日本語能力を強化する手法が優勢であった.本開発では,対話・作文性能の向上を目的に合成データを活用した学習を行った.当該性能の評価指標として一般的な”Japanese MT-Bench”において,8Bでは既存の10B級のモデルを上回り,8×8BモデルはGPT-3.5に匹敵し,国産フルスクラッチモデルではSOTA同等を実現した.開発したモデル・学習コードはApache License 2.0として公開しており,日本語LLMの学術研究や産業応用に貢献するものである.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード