09:00 〜 10:40
[3Pin1-08] 主成分分析による方策パラメータの低次元化を用いた直接方策探索の提案
キーワード:強化学習、鏡像降下法、主成分分析
強化学習におけるサンプリングベース直接政策探索では、より高い次元の決定変数が最適値の悪化と学習速度の低下を引き起こす。 また、サンプリングのための確率分布の分散が、最適値と学習速度の両方に影響を及ぼすことを明らかにした。さらに、そこには最適値と学習速度との間のトレードオフが存在することも明らかになった。 本論文では、最適値を改善するためのサンプリング分布の分散に対する操作と, 学習速度を改善するための決定変数の次元削減の2つの手法を提案して、最適値を悪化させずに学習速度を向上させることを実現させた。