2025年度 人工知能学会全国大会(第39回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[3Win5] ポスターセッション3

2025年5月29日(木) 15:30 〜 17:30 W会場 (イベントホールD-E)

[3Win5-05] Transformer によるタスク全体収益の推定と自然強化学習

〇青木 颯大1、高橋 達二2、甲野 佑2 (1.東京電機大学大学院、2.東京電機大学)

キーワード:強化学習、機械学習

行動の試行錯誤学習である強化学習はその定義上,状態を基点とした収益予測で方策を修正する.そのため割引率なる無限大発散を防ぐ仕組みが必要になる.これは強化学習がエピソードタスクだけでなく,エピソード長に終わりがない連続タスクも学習対象としているからである.しかし特定の状態からの収益推定はタスク全体の出来高と食い違う場合もある.そこで我々はあまり語られることはない,方策を無限に実行すると得られる状態への定常的な訪問分布に着目した.この定常分布で報酬関数の期待値を取れば,エピソード・連続タスク両方に適用可能な現方策の正確な評価を知ることができる.そこで系列生成に優れた transformer を使い,部分的な軌跡から定常分布に対するタスク全体の収益期待値の推定を提案する.概念的な優劣は兎も角,この実用上の利点は人間の直感,すなわち最適化ではなく十分に良い成果を選ぶ自然強化学習での利用時にある.タスク全体の評価がわかればその方策がタスク全体にとって優れているか明確に推定可能になるためである.本研究では軌跡の一部からのタスク全体収益期待値の推定を自然強化学習に組み込み,従来の手法と比較した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード