探索が困難かつ状態行動空間が広大な問題を解くためのIMPALAとDemonstrationの併用

佐竹 空良

16:00 〜 16:20

[3R5-OS-31-02] 探索が困難かつ状態行動空間が広大な問題を解くためのIMPALAとDemonstrationの併用

遊戯王マスターデュエルでの適用事例

〇佐竹空良¹、服部壮一郎¹、木原直也¹ (1. 株式会社コナミデジタルエンタテインメント)

キーワード：デジタルゲーム、人工知能、強化学習、ゲームAI

深層強化学習を現行のデジタルゲームに適用する際、探索の難しさや状態行動空間の広さが課題となることが多い。大量のプレイログを活用できる場合は模倣学習などでその難しさを軽減できる。しかし、開発中のゲームや異なるレギュレーションでのイベント時など、十分なログの収集が難しく模倣学習が行えない場合もある。本研究では、開発者が手動で作成できる程度の小規模なデモンストレーションを活用して探索を誘導し、IMPALAアーキテクチャにより効率的に深層強化学習を行う手法を提案する。 V-traceにおける補正計算を工夫することで、探索が困難な問題を高速に学習できることを示す。また、現行の対戦型デジタルゲームにおいて、提案手法を用いてAIの学習を行った。その結果、既存のルールベースAIに匹敵する強さのAIを学習できた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3R5-OS-31] デジタルゲームの人工知能

[3R5-OS-31-02] 探索が困難かつ状態行動空間が広大な問題を解くためのIMPALAとDemonstrationの併用

遊戯王マスターデュエルでの適用事例

パスワード

講演情報

[3R5-OS-31] デジタルゲームの人工知能

[3R5-OS-31-02] 探索が困難かつ状態行動空間が広大な問題を解くためのIMPALAとDemonstrationの併用

遊戯王 マスターデュエルでの適用事例

パスワード

遊戯王マスターデュエルでの適用事例