JSAI2025

Presentation information

Poster Session

Poster session » Poster Session

[3Win5] Poster session 3

Thu. May 29, 2025 3:30 PM - 5:30 PM Room W (Event hall D-E)

[3Win5-56] OSWorld-JP: A Japanese Computer Use Benchmark for Language-aware Evaluation

〇Bumbu Shoji1, Yuki Yoshida1 (1.Karakuri, Inc.)

Keywords:LLM, Computer Use, Benchmark, Multimodal

近年、GUIおよびCLIインターフェースを介したコンピュータ操作の自動化において、大規模言語モデル(LLM)を搭載したエージェントの活用が著しく進展している。しかし、既存のエージェント評価ベンチマークは主に英語環境向けに最適化されているため、日本語環境下での評価には不適合である。本研究はこの課題に対応するため、プロンプトの翻訳、システム環境のローカライズ、並びにタスク関連ファイルの改変を通じ、既存のエージェント評価ベンチマークOSWorldの日本語版であるOSWorld-JPを開発した。
また本研究ではOSWorld-JPを用いた評価実験を行い、GPT-4oおよびGemini-1.5-Proを対象とし、39のタスクにおけるパフォーマンスを測定した。いずれのモデルもタスク成功率が3%以下と極めて低い結果となった。これらの結果は、既存のLLMが日本語環境下でのコンピュータ操作に対して十分な性能を発揮していないことを示唆している。今後は、日本文化を考慮したタスクの導入によるベンチマークの改善及び多様な言語環境下におけるエージェントの性能向上に向けた取り組みが必要である。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password