15:30 〜 15:50
[3R5-GS-2-01] 勝率水準を調整可能な目的志向探索を行う AlphaZeRS
キーワード:強化学習、ニューラルネットワーク、深層強化学習
対人型のゲーム AI の分野では今でも木探索の手法が使われており,それを深層強化学習と組み合わせた AlphaZero が優れた成績を有している.一方で,単純な強さを追い求めるだけではなく対戦相手に合わせた難易度で対戦できる人工知能も,現実のサービスにおいては重要な研究であると考えられる. その様な難易度調整において最も重要なのは,相手に対して常に任意の勝率になるような戦い方であり,自然な目的勝率水準の達成を目指した AI が必要になる.その様な合目的的探索を行うアルゴリズムとして Risk-sensitive Satisficing (RS) が存在する. 本研究では AlphaZero の評価関数をPUCT から RS に変更した AlphaZeRS を提案した.RS は目的水準への素早い探索と発見を特徴としているため,既存手法と比べてノード展開数も少なくて済む可能性がある.そこで二人対戦ゲームでのシミュレーションを通してAlphaZeRS の強さの異なる相手への目的勝率水準の達成やノード展開の節約の観点から検証,考察を行った.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。