18:20 〜 18:40
[3S6-GS-2-03] Qwen2.5-32B/7Bの日本語継続事前学習
キーワード:人工知能、大規模言語モデル、生成モデル
本研究では,Alibaba Cloud 開発の Qwen モデルシリーズ Qwen2.5-32B-Instruct および Qwen2.5-7B-Instruct に日本語中心の継続事前学習を実施し,日本語タスクにおける有効性を評価した.社会実装を見据え,モデルのパラメータ数を抑えつつ高い日本語性能を目指し,約 100B トークンの日英混在データで継続事前学習を実施した.さらに ChatVectorによるマージ手法を適用して指示追従性能を向上させた.評価には MT-Bench-Japanese と ELYZA-tasks-100 を用い,32B モデルではそれぞれ 8.294,4.37 を記録し,クローズドな大規模言語モデルに匹敵する競争力を示した.また,各ベンチマークの総合で,Qwen2.5-72B-Instruct のスコアを上回っており,日本語継続事前学習の有用性が確認された.一方,出力に中国語が混在する事象が確認されており,ChatVector や元モデルの学習データの影響が示唆される.今後は混在データの排除に加えて,領域特化・タスク特化を含むチューニングによってさらなる性能向上と問題解消を図る.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。