17:30 〜 17:45
[19p-Z34-16] 生物種間競争原理を利用した MAB 型強化学習問題の最適解探索法
キーワード:強化学習、multi-armed bandit 問題、自然計算
異なる報酬期待値をもつ複数のスロットマシンから最大期待値をもつマシンを選び出す問題(MAB問題)に対して,体積保存則からヒントを得た新規手法を開発した。本手法はパラメーターが小さな時間連続極限において,生物種間競争ダイナミクスのモデル方程式 (Lotka-Volterra 方程式) に帰着する。本手法の最適解探索能力の背後にこのような自然現象のメカニズムがあることを述べ,その特徴などについて話す。