見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究

坂本 充生

09:40 〜 10:00

[2I1-GS-5a-03] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究

〇坂本充生¹、岩崎敦¹ (1. 電気通信大学)

キーワード：ゲーム理論、強化学習、マルチエージェント、囚人のジレンマ、繰り返しゲーム

本研究では，プレイヤが相手の行動を見間違えうる繰り返し囚人のジレンマにおけるQ学習がどのような協力的／非協力的振る舞いを獲得するかを吟味する．人はどのようにして協力するのかは人工知能や経済学，生物学における基本的な問題である．一般には，見間違えが起きる場合，従来よく知られているしっぺ返し戦略 (Tit-For-Tat, TFT) はどちらかがいったん裏切ると，協力状態に戻るのは難しい．一方で，戦略空間を有限状態機械に限定したレプリケータダイナミクスの下では，見間違えが起きても協力状態を回復しやすい戦略，Win-Stay，Loss-Shift (WSLS) が生き残ることが明らかになっている．そこで本研究では，Q学習がWSLSのような協調行動を回復できる方策を学習できるかを検証する．そのために，見違えの起きる環境でのQ学習アルゴリズムNeural Replicator Dynamics with Mutation (NeuRD+M)を提案した．その結果，NeuRD+Mは既存の学習アルゴリズムと比較して，報酬と協調率の点で優れており，WSLSのような行動を学習することを確認した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2I1-GS-5a] エージェント：ゲーム理論

[2I1-GS-5a-03] 見間違えのある繰り返し囚人のジレンマにおけるQ学習に関する研究

パスワード