深層強化学習における目的志向探索

甲野 佑

13:50 〜 14:10

[2Q4-OS-27b-02] 深層強化学習における目的志向探索

〇甲野佑^1,2、久米淳¹、池田龍司³、高橋達二¹ (1. 東京電機大学理工学部、2. 株式会社ディー・エヌ・エー、3. 東京電機大学大学院)

キーワード：強化学習、深層学習、認知科学

学習における人間の柔軟性は複雑な世界を概念化し，その類推や組み合わせから得られている．一方で概念化に必要な情報収集の時点でそもそも人間は優れている．例えば，これくらいは達成すべきという見積もりを自己で行ったり他者から与えられ，それを当面の目的とすることで現状の良し悪しが判別可能になり，その半教示的な評価が学習を促進する．本研究ではそんな人間の目的志向探索が強化学習に有効であると考えた．この探索傾向を実現するのが Risk-sensitive Satisficing (RS) というメタ方策である．近年では複雑な状態系列を処理できる深層強化学習が主流となっているが RS は大きく 2 つの問題から適用できなかった．一つは決定論的選択でありサンプル効率を改善する重要度サンプリングのための確率分布の潜在的である点，もう一つは好奇心に類似する試行割合である信頼度の複雑な状態表現への近似である．本研究ではこれらを理論的選択確率の導出や，近傍近似によって解決し，深層強化学習に目的志向探索 RS アルゴリズムを適用した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2Q4-OS-27b] 強化学習の新展開

[2Q4-OS-27b-02] 深層強化学習における目的志向探索

パスワード