13:50 〜 14:10
[2D4-GS-2-02] 自己対戦型深層強化学習における探索結果の利用
キーワード:強化学習、深層学習、自己対戦
我々はAlphaGoZeroやAlphaZeroなどのゲームAIで広く用いられている自己対戦型深層強化学習における訓練データ生成について新しい手法を提案する。一般に、このような自己対戦型の学習では、自己対戦中に生成される探索結果の多くを利用できておらず、現在その活用法の研究はほとんど行われていない。提案手法では、最終的な勝敗報酬と方策を推定することによって得られた探索結果を訓練データに変換する。学習のハイパーパラメータを変化させて実験を行った結果、提案手法は方策の効率的な学習に寄与し、学習の安定性を高めることを示唆する結果が得られた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。