様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価

藤村 悠太朗

17:40 〜 18:00

[2D4-02] 様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価

〇藤村悠太朗¹、金子知適¹ (1. 東京大学)

キーワード：ゲーム、強化学習

リアルタイムで迅速な意思決定をする必要があるゲームに関する研究が注目されている．
強化学習の手法であるDeep Q-Network (DQN) という手法によって，Atari 2600のゲームの一部で人間より高いスコアを記録したが，Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった．
HRAは，Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし，人間のプレイヤを上回るスコアを達成した．
本研究では，より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため，HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し，DQNとHRAで性能の比較と考察を行った．
その結果，HRAはランダム方策での訓練と相性が良く，DQNよりも優れる学習効率と性能を発揮するが，
ランダム方策で報酬を得ることが困難なゲーム環境においては，ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では，学習が困難であることを示した．

講演情報

[2D4] AI応用-ゲームと音楽

[2D4-02] 様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価