2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-7 エージェント

[3P4-J-7] エージェント: 社会的マルチエージェント

2019年6月6日(木) 15:50 〜 17:30 P会場 (1F 展示ホール左奥)

座長:福田 直樹(静岡大学) 評者:市川 淳(神奈川大学)

17:10 〜 17:30

[3P4-J-7-05] Multi-agent maximum discounted causal entropy逆強化学習による報酬推定

〇浪越 圭一1、荒井 幸代1 (1. 千葉大学)

キーワード:マルチエージェントシミュレーション、逆強化学習

群衆,交通流,金融など,現実の環境は,複数の行動主体が相互作用するマルチエージェント系である.Multi-agent simulation(MAS)はマルチエージェント系を再現する枠組みの一つであり,行動予測や行動目的の理解に用いられる.しかし,全エージェントの行動ルールを記述し全体の振舞いを再現するMASは,多くの試行錯誤と妥当性説明を必要としてきた.
そこで本提案では,全エージェントの振舞いを観測した行動ログから,各エージェントの従う行動ルールと,行動目的を反映した報酬を推定する新たなMulti-agent逆強化学習を提案する.具体的には,infinit horizonのマルコフ決定過程を対象とするMaximum discounted causal entropy逆強化学習をマルチエージェント系に拡張し,その解法を示す.既存法と比較し,提案法は一般的なMarkov gameへ適用可能であり各エージェントの報酬を推定する点が異なる.
実験では,エージェント2体のGridWolrd環境を用いて,決定的なNash均衡方策で生成した行動ログから,妥当な行動ルールと報酬が推定できることを示した.