[3Yin2-10] Critic-Attentionによる探索基準を用いた大規模環境における効率的な深層強化学習
キーワード:強化学習、大規模環境
深層強化学習は,エージェントが未知の環境に対して試行錯誤を行い,獲得した報酬を頼りに最適な行動を学習する手法である.Atari2600やボードゲームなど,様々なゲームタスクにおいて,人間を凌駕する性能を発揮している.しかし,エージェントは報酬に辿り着くまで,探索基準が無い状態でランダムに行動をする.そのため,報酬を獲得する機会が少ない大規模で複雑な環境においては,適切な行動を獲得するまで膨大な試行回数が必要となる.そこで本研究では,Mask-Attention機構を導入したCriticモデルを事前学習し,それにより得られたAttention mapをPolicyモデルの探索基準とすることで,効率的な学習を可能とする.また,PolicyモデルをMaster Policyと複数のSub Policyに分割して階層化することで,さらに効率的な学習を実現する.Minecraftを用いた実験により,効率的に学習可能であることを示す
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。