一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法

工藤 ミコト

14:20 〜 14:40

[4D3-GS-2-02] 一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法

Stackelberg均衡の観点でのパレート最適方策の提案と方策改善による反復的解法の収束保証

〇工藤ミコト^1,2、秋本洋平^1,2 (1. 筑波大学、2. 理化学研究所革新知能統合研究センター)

キーワード：確率ゲーム、シュタッケルベルグ均衡、マルチエージェントMDP、マルチエージェント強化学習、方策誘導

動的な環境における複数エージェントの累積報酬の同時最大化問題は確率ゲームと呼ばれる．リーダー・フォロワー間の非対称なエージェント関係においては，最適反応を示すフォロワーの下でリーダーの報酬を任意の初期状態で最大化するStackelberg均衡が定義される．定常なStackelberg均衡（SSE）は常に存在するとは限らず，既存手法は収束性と収束点がSSEに一致することを保証するために強い仮定を必要とする．しかし，我々の分析によれば，既存手法はSSEに一致しない収束点ではSSEに準ずる性能が期待できない．我々はStackelberg均衡の観点でのPareto最適性という新たな解概念を提案し，方策反復法に基づくPareto最適方策のためのアルゴリズムを構築する．提案手法は局所的な方策改善を繰り返すことでParetoフロントに単調に近づき，かつPareto最適性の必要条件を満たす方策に収束することが保証される．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4D3-GS-2] 機械学習：基礎・理論

[4D3-GS-2-02] 一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法

Stackelberg均衡の観点でのパレート最適方策の提案と方策改善による反復的解法の収束保証

パスワード