[3Win5-08] 過去履歴の推定の不確かさを考慮した目標志向探索
キーワード:強化学習、認知科学、機械学習
人間が主体的な環境探索を旨とする強化学習課題をする時、ある選択肢 A で目標を達成できなかったら選択肢 B を試す。しかし殆どの深層強化学習アルゴリズムでは行動選択分布である挙動方策の変化が緩慢で A でないなら B といった大胆な探索ができない。その実現には過去の選択比率が適切に記録されている必要がある。しかし広大な状態行動空間上で近似する場合、選択比率の正確な表現獲得は困難である。前述の探索の大きな変化を実現するアルゴリズムとして Risk-sensitive Satisficing (RS) が存在する。RS は目標水準に達する方策が得られていない時、選択比率実績から現在目指すべき選択比率に最短で近づけるような挙動方策を導出する。しかし深層強化学習に拡張された既存の RS では過去の選択比率の推定が不確かなのに最短の挙動方策を正確に計算してしまう。また挙動方策の計算式には MAX関数を使用しており正規分布など連続行動への拡張ができない。本研究ではこの過去履歴推定の不確かさや拡張性を考慮した新たな方策の導出方法を提案し、トイタスクにて従来手法よりも成績を良いことを示した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。