2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[3S6-GS-2] 機械学習:

2025年5月29日(木) 17:40 〜 19:20 S会場 (会議室701-2)

座長:渡邊 千紘(NTT)

18:20 〜 18:40

[3S6-GS-2-03] Qwen2.5-32B/7Bの日本語継続事前学習

〇大谷 真也1、服部 響1、藤本 敬介1、中西 健太郎1、真鍋 知樹1、清田 浩史1、村主 壮悟1、久米 拓馬1、木下 正文1 (1. 株式会社ABEJA)

キーワード:人工知能、大規模言語モデル、生成モデル

本研究では,Alibaba Cloud 開発の Qwen モデルシリーズ Qwen2.5-32B-Instruct および Qwen2.5-7B-Instruct に日本語中心の継続事前学習を実施し,日本語タスクにおける有効性を評価した.社会実装を見据え,モデルのパラメータ数を抑えつつ高い日本語性能を目指し,約 100B トークンの日英混在データで継続事前学習を実施した.さらに ChatVectorによるマージ手法を適用して指示追従性能を向上させた.評価には MT-Bench-Japanese と ELYZA-tasks-100 を用い,32B モデルではそれぞれ 8.294,4.37 を記録し,クローズドな大規模言語モデルに匹敵する競争力を示した.また,各ベンチマークの総合で,Qwen2.5-72B-Instruct のスコアを上回っており,日本語継続事前学習の有用性が確認された.一方,出力に中国語が混在する事象が確認されており,ChatVector や元モデルの学習データの影響が示唆される.今後は混在データの排除に加えて,領域特化・タスク特化を含むチューニングによってさらなる性能向上と問題解消を図る.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード