2020年度 人工知能学会全国大会(第34回)

講演情報

インタラクティブセッション

[4Rin1] インタラクティブ2

2020年6月12日(金) 09:00 〜 10:40 R01会場 (jsai2020online-2-33)

[4Rin1-13] 動的方策計画法の連続拡張

〇岩城 諒1 (1.日本アイ・ビー・エム株式会社 東京基礎研究所)

キーワード:強化学習、マルコフ決定過程

価値反復法と方策反復法は,マルコフ決定過程で最適価値関数・最適方策を得るための古典的な手法である.環境の状態遷移関数や報酬関数が未知である場合は,環境との相互作用を通じた近似解法である近似価値・方策反復法が有効であり,これらは多くの強化学習手法の基礎となっている.古典的な近似価値・方策反復法において,方策の漸近的な損失は,各反復での価値の近似誤差の最大値で特徴付けられてしまうが,Azarらによって提案された動的方策計画法では,漸近的な方策の損失は価値の近似誤差の平均値で特徴付けられる.すなわち,価値関数の近似誤差が,期待値 0 な同一の分布に従う互いに独立な確率変数であった場合,動的方策計画法によって最適方策を獲得できる.このように,動的方策計画法は理論的に優れた性質を持っているが,一方でその適用範囲は離散行動空間に限られる.本研究では,関数近似誤差に頑健であり,かつ連続行動空間に適用可能な強化学習手法の提案を目的として,動的方策計画法を基にした手法を提案する.計算機実験により,提案法が特に初期の性能において優れていることを示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード