[3Win5-21] Challenges of Deep Reinforcement Learning in the NetHack Learning Environment: Separating the Effects of Randomness and Episode Length
Keywords:deep reinforcement learning
強化学習環境であるNetHack Learning Environment (NLE) は• プレイ毎に異なるダンジョンが生成されるランダム性や広大な状態・行動空間,長いエピソード長による遅延報酬が特徴であり,深層強化学習による攻略が困難なことが知られている.この要因として,本稿では環境のランダム性に着目した.ランダム性の影響を評価するため,学習・評価時に乱数シードを固定しランダム性の排除を試みた. 結果,乱数シードを固定することで学習の速度は向上したため,少なくとも学習初期においてランダム性が学習を困難にしている要因であることが確かめられた.しかし,ランダム性を排除したとしても学習の進行は緩やかであり,ランダム性以外の要因の影響も受けていることが示唆された.
Please log in with your participant account.
» Participant Log In