[4Rin1-13] 動的方策計画法の連続拡張
キーワード:強化学習、マルコフ決定過程
価値反復法と方策反復法は,マルコフ決定過程で最適価値関数・最適方策を得るための古典的な手法である.環境の状態遷移関数や報酬関数が未知である場合は,環境との相互作用を通じた近似解法である近似価値・方策反復法が有効であり,これらは多くの強化学習手法の基礎となっている.古典的な近似価値・方策反復法において,方策の漸近的な損失は,各反復での価値の近似誤差の最大値で特徴付けられてしまうが,Azarらによって提案された動的方策計画法では,漸近的な方策の損失は価値の近似誤差の平均値で特徴付けられる.すなわち,価値関数の近似誤差が,期待値 0 な同一の分布に従う互いに独立な確率変数であった場合,動的方策計画法によって最適方策を獲得できる.このように,動的方策計画法は理論的に優れた性質を持っているが,一方でその適用範囲は離散行動空間に限られる.本研究では,関数近似誤差に頑健であり,かつ連続行動空間に適用可能な強化学習手法の提案を目的として,動的方策計画法を基にした手法を提案する.計算機実験により,提案法が特に初期の性能において優れていることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。