目的志向強化学習における未来考慮型信頼度の頑健性

有村 柊一

16:50 〜 17:10

[3R5-GS-2-05] 目的志向強化学習における未来考慮型信頼度の頑健性

〇有村柊一¹、高橋達二²、甲野　祐² (1. 東京電機大学大学院、2. 東京電機大学)

キーワード：強化学習

人間は目標である希求水準を定めることで探索と知識利用のバランスをとり，目標を満たす行動系列を効率的に学習できる．この合目的解を高速に探索できる意思決定傾向を，強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である．しかし RS は状態行動系列を上手く扱うことができず，強化学習全般への適応が完全とは言えない．その理由は RS で参照する行動の試行度合い（信頼度）を系列や方策全体へ拡張する方法が不明であったためである．それに対し系列からの信頼度の学習を可能にした手法に, 深層強化学習で用いられる経験記憶を利用し現在状態を照合し，過去の経験から未来を考慮した信頼度を動的に計算するものが提案されている. この手法は非定常環境における追従性を獲得しており, 既存手法を上回ることが期待されている. 一方でその性能は限られたタスクのみで検証されているもので, 広く強化学習タスクにおいて有効かどうかはわかっていない. 今回我々は未来考慮型信頼度を様々な強化学習タスクで検証・考察することによって, 強化学習全般への適応を目指す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3R5-GS-2] 機械学習；目的志向探索

[3R5-GS-2-05] 目的志向強化学習における未来考慮型信頼度の頑健性

パスワード