14:20 〜 14:40
[1N1-04] 認知的満足化価値関数の分析
保証付き満足化と有限 regret
キーワード:満足化、バンディット問題、認知触発コンピューティング
最近,ますます複雑化する強化学習の課題は,最適化を目指すアルゴリズムでは現実的な時間で解決することが難しい可能性がある.代わりに我々は時間的・物理的な制約のもとで一定の基準を満たす行動を見つけることを目指す,いわゆる満足化の戦略に注目する.本論文では満足化の戦略を組み込んだ(RS reference satisficing)と呼ばれる簡単な数理モデルを導入し,最も基本的な強化学習課題であるバンディット問題に適用する.満足化の基準を満たす行動が存在すれば,それを必ず見つけ出すことや,満足化の結果が最適行動の選択(つまり最適化)を意味するように満足化の基準が与えられた場合,期待損失を表すregretが無限大に発散せずに有限の値で抑えられることを理論的に示す.理論的に示された性質についてはシミュレーションでも成立を確認する.また,他のアルゴリズムとの比較を通じてRSの有効性や特徴を明らかにする.これらの結果によってRSの理論的な基盤や特徴が明らかになり,今後RSが広く使われるようになることが期待される.