14:20 〜 14:40
[4D3-GS-2-02] 一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法
Stackelberg均衡の観点でのパレート最適方策の提案と方策改善による反復的解法の収束保証
キーワード:確率ゲーム、シュタッケルベルグ均衡、マルチエージェントMDP、マルチエージェント強化学習、方策誘導
動的な環境における複数エージェントの累積報酬の同時最大化問題は確率ゲームと呼ばれる.リーダー・フォロワー間の非対称なエージェント関係においては,最適反応を示すフォロワーの下でリーダーの報酬を任意の初期状態で最大化するStackelberg均衡が定義される.定常なStackelberg均衡(SSE)は常に存在するとは限らず,既存手法は収束性と収束点がSSEに一致することを保証するために強い仮定を必要とする.しかし,我々の分析によれば,既存手法はSSEに一致しない収束点ではSSEに準ずる性能が期待できない.我々はStackelberg均衡の観点でのPareto最適性という新たな解概念を提案し,方策反復法に基づくPareto最適方策のためのアルゴリズムを構築する.提案手法は局所的な方策改善を繰り返すことでParetoフロントに単調に近づき,かつPareto最適性の必要条件を満たす方策に収束することが保証される.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。