2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2S1-GS-2] 機械学習:

2025年5月28日(水) 09:00 〜 10:40 S会場 (会議室701-2)

座長:森山 甲一(名古屋工業大学)

09:20 〜 09:40

[2S1-GS-2-02] 学習過程の軌跡分類による報酬の逐次改善を導入した強化学習

〇蓑島 康太1、荒井 幸代1 (1. 千葉大学)

キーワード:強化学習、報酬形成、模倣学習

強化学習が適切な方策を獲得するためには、設計者が事前に設計した適切な報酬関数が必要である。しかし、特に複雑な問題設定においては、適切な報酬関数の設計負担が増大する。不適切な報酬関数は、エージェントが設計者の意図と異なる方策を学習する原因となり、強化学習の実世界への応用におけるボトルネックとなる。本研究では、この課題に対するアプローチとして、強化学習エージェントが学習過程で遷移した軌跡を成功と失敗にラベリングし、これらを識別する識別器を強化学習と並行して学習し、追加の報酬として利用する方法を提案する。識別器は、エージェントが環境を実行する過程で得られる状態に対し、各状態に対して成功ラベルである確率を出力する。この出力をエージェントへの追加報酬としてフィードバックすることで、報酬設計の負担を軽減しつつ、効率的な学習を実現する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード