強化学習過程へのエージェント型介入による方策学習の誘導

工藤 ミコト

13:50 〜 14:10

[2F4-GS-5-02] 強化学習過程へのエージェント型介入による方策学習の誘導

〇工藤ミコト^1,2、秋本洋平^1,2 (1. 筑波大学、2. 理化学研究所革新知能統合研究センター)

キーワード：強化学習、2-player Markov Game

オンライン強化学習による自律学習エージェントは環境とのインタラクションから得られる状態観測とエージェント内部に定義された報酬のから逐次的に方策を学習している．しかし，他のエージェントの行動が介入することによって状態遷移が変化すると，本来学習したかった方策が学習できなかったり特定の別の方策を学習するよう誘導されてしまう可能性がある．本研究ではそのような強化学習過程への介入攻撃を対象に，介入アルゴリズムの提案とその性質について調査する．介入エージェントによる主人公エージェントへの介入を2-player Markov Gameとして定式化し，介入者が意図した報酬を最大化させる方策を主人公が学習するように介入エージェントの方策を学習すると，主人公が自らの報酬についての最適方策を常に獲得しているような状況でも介入が失敗しうることがわかった．主人公が学習途中であるような状況では別の問題も発生し，そのためのアルゴリズムの改良を考案した．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2F4-GS-5] エージェント

[2F4-GS-5-02] 強化学習過程へのエージェント型介入による方策学習の誘導

パスワード