2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 13.AI応用

[2D4] AI応用-ゲームと音楽

2018年6月6日(水) 17:20 〜 19:00 D会場 (4F カトレア)

座長:森川 幸治(パナソニック株式会社)

17:40 〜 18:00

[2D4-02] 様々な学習戦略と学習環境におけるHybrid Reward Architectureの性能の評価

〇藤村 悠太朗1、 金子 知適1 (1. 東京大学)

キーワード:ゲーム、強化学習

リアルタイムで迅速な意思決定をする必要があるゲームに関する研究が注目されている.
強化学習の手法であるDeep Q-Network (DQN) という手法によって,Atari 2600のゲームの一部で人間より高いスコアを記録したが,Ms. Pacmanなどのゲームでは人間のプレイヤのスコアに達することができなかった.
HRAは,Ms. Pacmanのような非常に大きな状態空間のゲームに対しても学習を可能にし,人間のプレイヤを上回るスコアを達成した.
本研究では,より難しい性質を持ったゲームにもHRAの手法を適用できるかを調査するため,HRAによる分割を用いた学習が適するゲーム環境をいくつか作成し,DQNとHRAで性能の比較と考察を行った.
その結果,HRAはランダム方策での訓練と相性が良く,DQNよりも優れる学習効率と性能を発揮するが,
ランダム方策で報酬を得ることが困難なゲーム環境においては,ε-greedy方策やDQNで学習を行ったときの行動を訓練例とするといった手法では,学習が困難であることを示した.