Qwen2.5-32B/7Bの日本語継続事前学習

大谷 真也

18:20 〜 18:40

[3S6-GS-2-03] Qwen2.5-32B/7Bの日本語継続事前学習

〇大谷真也¹、服部響¹、藤本敬介¹、中西健太郎¹、真鍋知樹¹、清田浩史¹、村主壮悟¹、久米拓馬¹、木下正文¹ (1. 株式会社ABEJA)

キーワード：人工知能、大規模言語モデル、生成モデル

本研究では，Alibaba Cloud 開発の Qwen モデルシリーズ Qwen2.5-32B-Instruct および Qwen2.5-7B-Instruct に日本語中心の継続事前学習を実施し，日本語タスクにおける有効性を評価した．社会実装を見据え，モデルのパラメータ数を抑えつつ高い日本語性能を目指し，約 100B トークンの日英混在データで継続事前学習を実施した．さらに ChatVectorによるマージ手法を適用して指示追従性能を向上させた．評価には MT-Bench-Japanese と ELYZA-tasks-100 を用い，32B モデルではそれぞれ 8.294，4.37 を記録し，クローズドな大規模言語モデルに匹敵する競争力を示した．また，各ベンチマークの総合で，Qwen2.5-72B-Instruct のスコアを上回っており，日本語継続事前学習の有用性が確認された．一方，出力に中国語が混在する事象が確認されており，ChatVector や元モデルの学習データの影響が示唆される．今後は混在データの排除に加えて，領域特化・タスク特化を含むチューニングによってさらなる性能向上と問題解消を図る．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3S6-GS-2] 機械学習：

[3S6-GS-2-03] Qwen2.5-32B/7Bの日本語継続事前学習

パスワード