日本語LLMの多面的な評価リーダーボードの構築

山本 祐也

10:00 〜 10:20

[2G1-GS-11-04] 日本語LLMの多面的な評価リーダーボードの構築

〇山本祐也¹、鎌田啓輔¹、柴田暁¹ (1. ウェイツアンドバイアスィズジャパン)

キーワード：機械学習、大規模言語モデル、モデル評価、リーダーボード

【目的】Weights & Biasesでは日本語LLMの多面的な評価を目的として、包括的なリーダーボード「Nejumi LLMリーダーボード Neo」を構築した。このリーダーボードは、言語理解能力と生成能力の両面からの評価を基に、モデルの性能を総合的に評価・可視化することを目指している。評価方法としては、一問一答形式のベンチマークテストと会話形式の日本語生成タスクを組み合わせることで、各モデルの理解能力と生成能力を多面的に評価するように設計した。
【結果】リーダーボードの運用を通じて、特にモデル間の比較の重要性と、評価基準の透明性と統一性の必要性についての知見が得られた。また、モデルの種類によって、会話能力と一問一答問題への対応力に差があることが明らかになった。全体的な傾向としては言語理解能力と会話形式の生成能力は相関するものの、モデルサイズで層別するとトレードオフの関係があることなどが認められた。
【結論】本リーダーボードは、個別の開発において見えにくい日本語LLMの性能評価における俯瞰的な視点を提供するための新しいアプローチを提案し、日本語言語モデルのさらなる進化と改善に貢献すると考える。

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン

講演情報

[2G1-GS-11] AIと社会：

[2G1-GS-11-04] 日本語LLMの多面的な評価リーダーボードの構築