2025年度 人工知能学会全国大会(第39回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[3Win5] ポスターセッション3

2025年5月29日(木) 15:30 〜 17:30 W会場 (イベントホールD-E)

[3Win5-56] OSWorld-JP:言語を考慮した評価のための日本語版コンピュータユースベンチマーク

〇庄司 文武1、吉田 雄紀1 (1.カラクリ株式会社)

キーワード:大規模言語モデル、コンピューターユース、ベンチマーク、マルチモーダル

近年、GUIおよびCLIインターフェースを介したコンピュータ操作の自動化において、大規模言語モデル(LLM)を搭載したエージェントの活用が著しく進展している。しかし、既存のエージェント評価ベンチマークは主に英語環境向けに最適化されているため、日本語環境下での評価には不適合である。本研究はこの課題に対応するため、プロンプトの翻訳、システム環境のローカライズ、並びにタスク関連ファイルの改変を通じ、既存のエージェント評価ベンチマークOSWorldの日本語版であるOSWorld-JPを開発した。
また本研究ではOSWorld-JPを用いた評価実験を行い、GPT-4oおよびGemini-1.5-Proを対象とし、39のタスクにおけるパフォーマンスを測定した。いずれのモデルもタスク成功率が3%以下と極めて低い結果となった。これらの結果は、既存のLLMが日本語環境下でのコンピュータ操作に対して十分な性能を発揮していないことを示唆している。今後は、日本文化を考慮したタスクの導入によるベンチマークの改善及び多様な言語環境下におけるエージェントの性能向上に向けた取り組みが必要である。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード