学習過程の軌跡分類による報酬の逐次改善を導入した強化学習

蓑島 康太

09:20 〜 09:40

[2S1-GS-2-02] 学習過程の軌跡分類による報酬の逐次改善を導入した強化学習

〇蓑島康太¹、荒井幸代¹ (1. 千葉大学)

キーワード：強化学習、報酬形成、模倣学習

強化学習が適切な方策を獲得するためには、設計者が事前に設計した適切な報酬関数が必要である。しかし、特に複雑な問題設定においては、適切な報酬関数の設計負担が増大する。不適切な報酬関数は、エージェントが設計者の意図と異なる方策を学習する原因となり、強化学習の実世界への応用におけるボトルネックとなる。本研究では、この課題に対するアプローチとして、強化学習エージェントが学習過程で遷移した軌跡を成功と失敗にラベリングし、これらを識別する識別器を強化学習と並行して学習し、追加の報酬として利用する方法を提案する。識別器は、エージェントが環境を実行する過程で得られる状態に対し、各状態に対して成功ラベルである確率を出力する。この出力をエージェントへの追加報酬としてフィードバックすることで、報酬設計の負担を軽減しつつ、効率的な学習を実現する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2S1-GS-2] 機械学習：

[2S1-GS-2-02] 学習過程の軌跡分類による報酬の逐次改善を導入した強化学習

パスワード