2021年第82回応用物理学会秋季学術講演会

講演情報

一般セッション(口頭講演)

FS フォーカストセッション「AIエレクトロニクス」 » FS.1 フォーカストセッション「AIエレクトロニクス」

[12p-S101-1~15] FS.1 フォーカストセッション「AIエレクトロニクス」

2021年9月12日(日) 13:00 〜 17:30 S101 (口頭)

丸亀 孝生(東芝)、赤井 恵(北大)

13:30 〜 13:45

[12p-S101-2] フォトニック強化学習における時間割引の解析

白鳥 帆香1、〇漆原 昂2、ショヴェ 二コラ1,2、砂田 哲3、菅野 円隆4、内田 淳史4、堀崎 遼一1,2、成瀬 誠1,2 (1.東大工、2.東大情報理工、3.金沢大、4.埼玉大)

キーワード:レーザーカオス、強化学習、時間割引

我々は先⾏研究で、状態遷移を扱う強化学習問題について光カオスを用いた手法を提案し、それが従来手法のQ学習よりも速く正確であることをCart-Poleの問題を例に⽰した。その際、Cart-Poleの失敗時のペナルティーには指数型の時間割引を用いていたが、本研究では他の関数型の割引を試みた。結果関数型よりもむしろ、罰則が過去10ステップに渡って有効であることの方が速い学習に重要であることが判明した。