18:00 〜 18:20
[1N3-03] 満足化原理の強化学習全般への適用に向けて
キーワード:強化学習、満足化、限定合理性
強化学習の適用範囲が広がるにつれて, 最適化は現実的でなくなり, エージェントの制限を考慮した限定合理性の重要性が増してくる. 限定合理性の主なモデルである満足化は, 人や動物がどのように探索と活用するかをモデル化したものである. しかし, 一般的に満足化を強化学習に効率的に適用するようなアルゴリズムは存在していない. そのため, 従来の研究よりも多様なタスクに満足化価値関数(RS)と大局基準変換法(GRC)を適用した. この研究で扱う3つのタスクでは, RSとGRCはうまく機能するが, 一般的な強化学習タスクには未解決の問題がいくつか存在する.