10:00 〜 10:20
[2G1-GS-11-04] 日本語LLMの多面的な評価リーダーボードの構築
キーワード:機械学習、大規模言語モデル、モデル評価、リーダーボード
【目的】Weights & Biasesでは日本語LLMの多面的な評価を目的として、包括的なリーダーボード「Nejumi LLMリーダーボード Neo」を構築した。このリーダーボードは、言語理解能力と生成能力の両面からの評価を基に、モデルの性能を総合的に評価・可視化することを目指している。評価方法としては、一問一答形式のベンチマークテストと会話形式の日本語生成タスクを組み合わせることで、各モデルの理解能力と生成能力を多面的に評価するように設計した。
【結果】リーダーボードの運用を通じて、特にモデル間の比較の重要性と、評価基準の透明性と統一性の必要性についての知見が得られた。また、モデルの種類によって、会話能力と一問一答問題への対応力に差があることが明らかになった。全体的な傾向としては言語理解能力と会話形式の生成能力は相関するものの、モデルサイズで層別するとトレードオフの関係があることなどが認められた。
【結論】本リーダーボードは、個別の開発において見えにくい日本語LLMの性能評価における俯瞰的な視点を提供するための新しいアプローチを提案し、日本語言語モデルのさらなる進化と改善に貢献すると考える。
【結果】リーダーボードの運用を通じて、特にモデル間の比較の重要性と、評価基準の透明性と統一性の必要性についての知見が得られた。また、モデルの種類によって、会話能力と一問一答問題への対応力に差があることが明らかになった。全体的な傾向としては言語理解能力と会話形式の生成能力は相関するものの、モデルサイズで層別するとトレードオフの関係があることなどが認められた。
【結論】本リーダーボードは、個別の開発において見えにくい日本語LLMの性能評価における俯瞰的な視点を提供するための新しいアプローチを提案し、日本語言語モデルのさらなる進化と改善に貢献すると考える。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。