満足化原理の強化学習全般への適用に向けて

佐鳥 玖仁朗

18:00 〜 18:20

[1N3-03] 満足化原理の強化学習全般への適用に向けて

〇佐鳥玖仁朗¹、吉田豊¹、山岸健太¹、牛田有哉²、神谷匠²、高橋達二¹ (1. 東京電機大学、2. 東京電機大学大学院)

キーワード：強化学習、満足化、限定合理性

強化学習の適用範囲が広がるにつれて, 最適化は現実的でなくなり, エージェントの制限を考慮した限定合理性の重要性が増してくる. 限定合理性の主なモデルである満足化は, 人や動物がどのように探索と活用するかをモデル化したものである. しかし, 一般的に満足化を強化学習に効率的に適用するようなアルゴリズムは存在していない. そのため, 従来の研究よりも多様なタスクに満足化価値関数(RS)と大局基準変換法(GRC)を適用した. この研究で扱う3つのタスクでは, RSとGRCはうまく機能するが, 一般的な強化学習タスクには未解決の問題がいくつか存在する.

講演情報

[1N3] 機械学習-強化学習

[1N3-03] 満足化原理の強化学習全般への適用に向けて