2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[4D3-GS-2] 機械学習:基礎・理論

2024年5月31日(金) 14:00 〜 15:40 D会場 (イベントホール仮設2)

座長:伊東 邦大(日本電気株式会社)

14:20 〜 14:40

[4D3-GS-2-02] 一般和確率ゲームにおける定常Stackelberg均衡のための方策反復法

Stackelberg均衡の観点でのパレート最適方策の提案と方策改善による反復的解法の収束保証

〇工藤 ミコト1,2、秋本 洋平1,2 (1. 筑波大学、2. 理化学研究所革新知能統合研究センター)

キーワード:確率ゲーム、シュタッケルベルグ均衡、マルチエージェントMDP、マルチエージェント強化学習、方策誘導

動的な環境における複数エージェントの累積報酬の同時最大化問題は確率ゲームと呼ばれる.リーダー・フォロワー間の非対称なエージェント関係においては,最適反応を示すフォロワーの下でリーダーの報酬を任意の初期状態で最大化するStackelberg均衡が定義される.定常なStackelberg均衡(SSE)は常に存在するとは限らず,既存手法は収束性と収束点がSSEに一致することを保証するために強い仮定を必要とする.しかし,我々の分析によれば,既存手法はSSEに一致しない収束点ではSSEに準ずる性能が期待できない.我々はStackelberg均衡の観点でのPareto最適性という新たな解概念を提案し,方策反復法に基づくPareto最適方策のためのアルゴリズムを構築する.提案手法は局所的な方策改善を繰り返すことでParetoフロントに単調に近づき,かつPareto最適性の必要条件を満たす方策に収束することが保証される.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード