フォトニック強化学習における時間割引の解析

白鳥 帆香; 漆原 昂; ショヴェ 二コラ; 砂田 哲; 菅野 円隆; 内田 淳史; 堀崎 遼一; 成瀬 誠

13:30 〜 13:45

[12p-S101-2] フォトニック強化学習における時間割引の解析

白鳥帆香¹、〇漆原昂²、ショヴェ二コラ^1,2、砂田哲³、菅野円隆⁴、内田淳史⁴、堀崎遼一^1,2、成瀬誠^1,2 (1.東大工、2.東大情報理工、3.金沢大、4.埼玉大)

キーワード：レーザーカオス、強化学習、時間割引

我々は先⾏研究で、状態遷移を扱う強化学習問題について光カオスを用いた手法を提案し、それが従来手法のQ学習よりも速く正確であることをCart-Poleの問題を例に⽰した。その際、Cart-Poleの失敗時のペナルティーには指数型の時間割引を用いていたが、本研究では他の関数型の割引を試みた。結果関数型よりもむしろ、罰則が過去10ステップに渡って有効であることの方が速い学習に重要であることが判明した。

講演情報

[12p-S101-1~15] FS.1 フォーカストセッション「AIエレクトロニクス」

[12p-S101-2] フォトニック強化学習における時間割引の解析