10:40 〜 11:00
[4E1-GS-2-03] 強化学習における報酬志向な環境推定
キーワード:強化学習、変分ベイズ、次元削減
ディープニューラルネットワークの発展によりシミュレーション上の強化学習問題において人間を超えるパフォーマンスの達成が可能になってきた.しかしながら,実環境における問題では,説明可能性や逐次学習などの課題が残っている.実環境では報酬に依存しない観測値が含まれるため,観測値のパターンが膨大になりAIの動作原理を説明することが困難になる.また,高いパフォーマンスの達成には膨大な学習データが必要になるため,逐次学習が困難となる.そこで本研究では,報酬に作用する環境と報酬に非依存な環境を組み合わせた,膨大な観測値のパターンを生成する環境での逐次的な戦略の学習を試みる.提案する学習方法は,報酬志向な環境推定モデルによる状態次元の削減とサンプリングを利用した探索と活用を制御する行動決定で構成される.結果として,報酬志向な環境推定モデルにより,膨大な観測値のパターンから報酬に作用する環境の復元が可能となった.さらに,提案したモデルと行動決定を組み合わせることにより,逐次学習での最適戦略の学習速度の向上が見られた.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。