5:30 PM - 5:45 PM
[19p-Z34-16] Identification of optimal solution in multi-armed bandit problems by interspecific competition dynamics
Keywords:reinforcement learning, multi-armed bandit problem, natural computing
異なる報酬期待値をもつ複数のスロットマシンから最大期待値をもつマシンを選び出す問題(MAB問題)に対して,体積保存則からヒントを得た新規手法を開発した。本手法はパラメーターが小さな時間連続極限において,生物種間競争ダイナミクスのモデル方程式 (Lotka-Volterra 方程式) に帰着する。本手法の最適解探索能力の背後にこのような自然現象のメカニズムがあることを述べ,その特徴などについて話す。