13:30 〜 13:45
[12p-S101-2] フォトニック強化学習における時間割引の解析
キーワード:レーザーカオス、強化学習、時間割引
我々は先⾏研究で、状態遷移を扱う強化学習問題について光カオスを用いた手法を提案し、それが従来手法のQ学習よりも速く正確であることをCart-Poleの問題を例に⽰した。その際、Cart-Poleの失敗時のペナルティーには指数型の時間割引を用いていたが、本研究では他の関数型の割引を試みた。結果関数型よりもむしろ、罰則が過去10ステップに渡って有効であることの方が速い学習に重要であることが判明した。