17:10 〜 17:30
[3K4-J-2-05] 認知的満足化関数の線形関数近似
文脈付きバンディット問題への対応
キーワード:強化学習、文脈付きバンディット、意思決定
レコメンドも,動物の採餌行動も,同じく試行錯誤と通じた報酬の最大化を目指している.しかしながら,複雑極まりない現実の世界において,報酬の最大化は困難であり,特定の目的を達成するか否かを優先すると考えられる.さらに言えばそれらはなるべく少ない情報でそれを達成することを目指していると思われる.そのような生物の持つ意思決定傾向は満足化と呼ばれる.本研究では満足化を目指して選択を行う RS アルゴリズムに着目し,より広い問題範囲への拡張を目指して線型近似関数への適応した LinRS を考案した.それにより広告配信などに応用される Contextual-bandit Problem に対応することが可能になり,一般的な既存の選択アルゴリズムとの比較を行った.本研究で実現した LinRS の線形関数近似は,目的達成を重視した RS による早く効率的な探索アルゴリズムを深層強化学習に応用するための第一歩である.