満足化を通じた最適な自律的探索

甲野 佑

18:20 〜 18:40

[1Z3-04] 満足化を通じた最適な自律的探索

甲野佑²、〇高橋達二¹ (1. 東京電機大学、2. 株式会社ディー・エヌ・エー)

キーワード：強化学習、バンディット問題、満足化、限定合理性

深層学習はその優れた関数近似能力により巨大な行動状態空間での強化学習を可能にしたが，探索と知識利用のトレードオフはより深刻になる．それに対し，乱数を利用した探索によるトレードオフに対処するためのヒューリスティックがいくつか提案されている．しかし確率的探索手法はパラメータ調整を困難にし，深層強化学習アルゴリズムの性能における巨大な分散の問題を増幅する．そこで我々は人間の不確実性を評価に対する意思決定傾向の側面を有する認知的満足価値関数 (RS) に基づく決定論的行動選択アルゴリズムに着目する．本研究では新たに満足化基準に対する潜在的な選択比率との関係を明らかにし，最適な探索を可能にする方法を提案する．提案アルゴリズムは多腕バンディット問題において最適な探索性能を示し，従来とは異なる視点での強化学習アルゴリズムのクラスに繋がる示唆を得た．

講演情報

[1Z3] 機械学習-機械学習基礎(3)

[1Z3-04] 満足化を通じた最適な自律的探索