[3Win5-08] Target-Oriented Exploration with Uncertainty-Aware Historical Distribution Estimation
Keywords:Reinforcement Learning, Cognitive Science, Machine Learning
人間が主体的な環境探索を旨とする強化学習課題をする時、ある選択肢 A で目標を達成できなかったら選択肢 B を試す。しかし殆どの深層強化学習アルゴリズムでは行動選択分布である挙動方策の変化が緩慢で A でないなら B といった大胆な探索ができない。その実現には過去の選択比率が適切に記録されている必要がある。しかし広大な状態行動空間上で近似する場合、選択比率の正確な表現獲得は困難である。前述の探索の大きな変化を実現するアルゴリズムとして Risk-sensitive Satisficing (RS) が存在する。RS は目標水準に達する方策が得られていない時、選択比率実績から現在目指すべき選択比率に最短で近づけるような挙動方策を導出する。しかし深層強化学習に拡張された既存の RS では過去の選択比率の推定が不確かなのに最短の挙動方策を正確に計算してしまう。また挙動方策の計算式には MAX関数を使用しており正規分布など連続行動への拡張ができない。本研究ではこの過去履歴推定の不確かさや拡張性を考慮した新たな方策の導出方法を提案し、トイタスクにて従来手法よりも成績を良いことを示した。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.