エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

今井 裕雅

15:20 〜 15:40

[4J3-GS-5-05] エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

〇今井裕雅¹、坂本航太郎¹、小島武¹、岩澤有祐¹、松尾豊¹ (1. 東京大学)

キーワード：大規模言語モデル、エージェント、報酬モデル

近年，大規模言語モデルの能力向上に伴い，外部ツールを用いて環境とインタラクションをするエージェントとしての活用がひろがっており，さらなる性能向上が求められている．推論ステップごとに報酬を付与するProcess Reward Model (PRM)をエージェントタスクのWebShopに適用し，探索（Beam Search）に活用することでタスク解決精度を向上させることを確認した．また，同程度の計算コストをかけた手法（Majority Voting）よりも安定して高い精度を達成できることが分かり，エージェントタスクにおいてPRMを用いた探索の有効性が示唆された．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4J3-GS-5] エージェント：

[4J3-GS-5-05] エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証

パスワード