On/off-policyのハイブリッド深層強化学習とシミュレーション環境での制御問題への応用

王 伯楠

14:40 〜 15:00

[1Q2-J-2-05] On/off-policyのハイブリッド深層強化学習とシミュレーション環境での制御問題への応用

〇王伯楠¹、河合新¹、延原肇¹ (1. 筑波大学)

キーワード：強化学習、深層学習、ハイブリッド、LSTM

ニューラルネットワークを用いた深層強化学習は幅広い、かつ、複雑なタスクに対応でき、様々な分野で成果を出している。特にゲームAIや制御などのタスクでは素晴らしい性能を示している。しかし従来手法では探索が進まないや学習が遅くなるなどの問題がある。本研究は長期経験と短期経験の両方を活用したon/off-policyのハイブリッドエージェントと訓練アルゴリズムを提案する。これによって、従来法の問題を解決し、性能の向上を図る。比較実験の結果、提案手法は従来手法に比べて良い性能を示している。

講演情報

[1Q2-J-2] 機械学習: 強化学習の展開

[1Q2-J-2-05] On/off-policyのハイブリッド深層強化学習とシミュレーション環境での制御問題への応用