15:30 〜 15:50
[2M5-GS-10-01] 『ぷよぷよ』における深層強化学習による自己対戦の適応
キーワード:ゲームAI、セルフプレイ、ぷよぷよ
近年、ボードゲームだけでなくビデオゲームにおいて、自己対戦を使用することで戦略の獲得に成功している。
本研究では、一人用と対戦用の落ち物パズルゲーム『ぷよぷよ』において、自己対戦と深層強化学習を用いて、戦略を学習させた研究の報告をする。自己対戦とは、エージェント同士が対戦してログを生成し、そのログを用いて学習する手法である。本実験では、Unityを使用してパズルゲームの環境を作成した。そして、強化学習ライブラリML-Agentsと深層強化学習アルゴリズムSACを使用して学習を行った。一人用ぷよぷよでは累積報酬と平均最大連鎖数を用いて評価を行った。一時的に性能は上昇したものの、最終的には少し悪くなってしまった。対戦用ぷよぷよではイロレーティングと平均最大連鎖数を用いて評価を行った。イロレーティングは初期値の1200から3100まで上昇し、最後まで上昇傾向にあった。今後の学習によってさらに強くなることが考えられる。
本研究では、一人用と対戦用の落ち物パズルゲーム『ぷよぷよ』において、自己対戦と深層強化学習を用いて、戦略を学習させた研究の報告をする。自己対戦とは、エージェント同士が対戦してログを生成し、そのログを用いて学習する手法である。本実験では、Unityを使用してパズルゲームの環境を作成した。そして、強化学習ライブラリML-Agentsと深層強化学習アルゴリズムSACを使用して学習を行った。一人用ぷよぷよでは累積報酬と平均最大連鎖数を用いて評価を行った。一時的に性能は上昇したものの、最終的には少し悪くなってしまった。対戦用ぷよぷよではイロレーティングと平均最大連鎖数を用いて評価を行った。イロレーティングは初期値の1200から3100まで上昇し、最後まで上昇傾向にあった。今後の学習によってさらに強くなることが考えられる。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。