15:20 〜 15:40
[4J3-GS-5-05] エージェントタスクにおけるProcess Reward Modelの構築と探索手法への適用の有効性検証
キーワード:大規模言語モデル、エージェント、報酬モデル
近年,大規模言語モデルの能力向上に伴い,外部ツールを用いて環境とインタラクションをするエージェントとしての活用がひろがっており,さらなる性能向上が求められている. 推論ステップごとに報酬を付与するProcess Reward Model (PRM)をエージェントタスクのWebShopに適用し,探索(Beam Search)に活用することでタスク解決精度を向上させることを確認した. また,同程度の計算コストをかけた手法(Majority Voting)よりも安定して高い精度を達成できることが分かり,エージェントタスクにおいてPRMを用いた探索の有効性が示唆された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。