Identification of optimal solution in multi-armed bandit problems by interspecific competition dynamics

Tomoaki Niiyama; Genki Furuhata; Atsushi Uchida; Makoto Naruse; Satoshi Sunada

5:30 PM - 5:45 PM

[19p-Z34-16] Identification of optimal solution in multi-armed bandit problems by interspecific competition dynamics

〇Tomoaki Niiyama¹, Genki Furuhata¹, Atsushi Uchida², Makoto Naruse³, Satoshi Sunada^1,4 (1.Kanazawa Univ., 2.Saitama Univ., 3.Univ. of Tokyo, 4.JST PREST)

Keywords:reinforcement learning, multi-armed bandit problem, natural computing

異なる報酬期待値をもつ複数のスロットマシンから最大期待値をもつマシンを選び出す問題（MAB問題）に対して，体積保存則からヒントを得た新規手法を開発した。本手法はパラメーターが小さな時間連続極限において，生物種間競争ダイナミクスのモデル方程式 (Lotka-Volterra 方程式) に帰着する。本手法の最適解探索能力の背後にこのような自然現象のメカニズムがあることを述べ，その特徴などについて話す。

Presentation information

[19p-Z34-1~17] FS.1 Focused Session "AI Electronics"

[19p-Z34-16] Identification of optimal solution in multi-armed bandit problems by interspecific competition dynamics