[2Win5-15] ブラックボックスMax-Ent RLフォロワーの下での Bi-level 強化学習
キーワード:Bi-level強化学習、ブラックボックス攻撃、シュタッケルベルグ・ゲーム
Bi-level強化学習は,リーダーが解くupper-levelの強化学習における目的関数が,フォロワーが解くlower-levelの強化学習の結果に依存するような階層構造を持つ問題である.これはリーダーによるフォロワーの学習へのポイズニングや誘導,報酬アライメントなどのタスクを表現する.既存研究の多くは,フォロワーの報酬や方策,学習アルゴリズムなどの情報を,リーダーが利用できる状況を想定している.しかし,フォロワーがリーダーの完全な管理化にあるとは限らず,フォロワーについての知識をリーダーが十分得られない場合もある.本研究はそのようなブラックボックスフォロワー設定において,フォロワーがエントロピー正則化の下での最適方策に従うと仮定した場合に,リーダーの最適方策を得るための方策勾配法を提案する.本稿では,リーダー方策の更新に対するフォロワーの反応を予め考慮した方策勾配を解析的に導出したのち,これをフォロワーの行動系列を利用して推定する方法を提案する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。