強化学習を戦略とする繰り返し囚人のジレンマのナッシュ均衡の数値的分析

鳥居 拓馬

18:00 〜 18:20

[1P5-GS-7-03] 強化学習を戦略とする繰り返し囚人のジレンマのナッシュ均衡の数値的分析

〇鳥居拓馬¹、日高昇平¹ (1. 北陸先端科学技術大学院大学)

キーワード：強化学習、囚人のジレンマ、ゲーム理論、相互協調

繰り返し囚人のジレンマ（IPD）は社会的ジレンマ状況を理論的に調べる標準的なツールのひとつである．標準的なゲーム理論の分析において標準的な IPD ではエージェント集団にとって望ましくない相互裏切に陥ることが示され，過去の研究においては別のゲームクラスとして強化学習エージェント間の IPD が研究されてきた．しかし，このクラスのゲーム（学習エージェント間のゲーム）はいまだ十分に解明されていない：標準的なゲーム理論の分析方法を適用することは難しいため，さまざまな近似的な解析手法が用いられている．本研究では，強化学習エージェント間の IPD がもつナッシュ均衡を調べた．その結果，標準的な IPD では相互裏切が唯一のナッシュ均衡だが，強化学習エージェント間の IPD では相互協調が唯一のナッシュ均衡である可能性が示された．以上は，強化学習エージェント間の IPD では，個人最適な選択（ナッシュ均衡）と集団最適な選択（パレート効率解）が一致し，その意味で社会的ジレンマが解消されたことを示唆する．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1P5-GS-7] エージェント: 協力とゲーム理論

[1P5-GS-7-03] 強化学習を戦略とする繰り返し囚人のジレンマのナッシュ均衡の数値的分析

パスワード