MC Softmax探索における学習方式：サンプリングによる局面評価関数の強化学習

粂川 叶

16:40 〜 17:00

[2O5-GS-5-05] MC Softmax探索における学習方式：サンプリングによる局面評価関数の強化学習

〇粂川叶¹、岩本裕大¹、五十嵐治一¹、杉本徹¹ (1. 芝浦工業大学)

[[オンライン]]

キーワード：MC Softmax探索、強化学習、ボルツマン分布

一般にゲームAIではプレイヤが探索木と局面評価値による予測シミュレーションを用いて行動を選択する． 2人ゲーム（将棋など）において，選択探索の1つであるMC Softmax探索とその局面評価関数の学習法が2018年に五十嵐らにより提案されている．この学習法は行動/状態価値の学習パラメータに関する勾配ベクトルを探索木に沿って再帰的に計算する方法であり，回帰，TD法，方策勾配法，ブートストラップ法（Q学習）などの複数の強化学習法の同時適用や，教師あり学習への適用が可能である．本研究では2人ゲームという枠組みに制限することなく，一般の機械学習の問題に適用できるように理論の拡張を行った．さらに，環境モデル中のパラメータに関する勾配ベクトルも同様の方法で計算可能である．例えば，正解の状態・行動列が与えられた模倣学習における報酬関数の推定にも本方式は適用することができる．また，上記では探索木を生成後に評価関数などの学習を行うことを前提としていたが，両者の同時実行も可能である．本研究では，提案方式を簡単な迷路脱出の例題に適用し，提案方式により学習が行えることを示した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2O5-GS-5] エージェント：ゲームAI

[2O5-GS-5-05] MC Softmax探索における学習方式：サンプリングによる局面評価関数の強化学習

パスワード