17:40 〜 18:00
[2D4-02] 様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価
キーワード:ゲーム、強化学習
リアルタイムで迅速な意思決定をする必要があるゲームに関する研究が注目されている.
強化学習の手法であるDeep Q-Network (DQN) という手法によって,Atari 2600のゲームの一部で人間より高いスコアを記録したが,Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった.
HRAは,Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし,人間のプレイヤを上回るスコアを達成した.
本研究では,より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため,HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し,DQNとHRAで性能の比較と考察を行った.
その結果,HRAはランダム方策での訓練と相性が良く,DQNよりも優れる学習効率と性能を発揮するが,
ランダム方策で報酬を得ることが困難なゲーム環境においては,ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では,学習が困難であることを示した.
強化学習の手法であるDeep Q-Network (DQN) という手法によって,Atari 2600のゲームの一部で人間より高いスコアを記録したが,Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった.
HRAは,Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし,人間のプレイヤを上回るスコアを達成した.
本研究では,より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため,HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し,DQNとHRAで性能の比較と考察を行った.
その結果,HRAはランダム方策での訓練と相性が良く,DQNよりも優れる学習効率と性能を発揮するが,
ランダム方策で報酬を得ることが困難なゲーム環境においては,ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では,学習が困難であることを示した.