実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用

藤井 慶輔

18:00 〜 18:20

[1E5-GS-5-04] 実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用

〇藤井慶輔^1,2,5、筒井和詩¹、スコットアトム¹、中原啓¹、武石直也^3,2、河原吉伸^4,2 (1. 名古屋大学、2. 理化学研究所、3. 東京大学、4. 大阪大学、5. JSTさきがけ)

キーワード：強化学習、機械学習、スポーツ、深層学習

実世界の生物学的マルチエージェントを強化学習でモデル化する場合、ソースとなる実世界のデータとターゲットとなる強化学習環境の間にドメインギャップがあるため、ターゲットダイナミクスを未知のソースダイナミクスに適応させることが必要である。そこで本研究では、実世界のdemonstrationから、マルチエージェント強化学習におけるドメイン適応のための方法として、ソースの行動をターゲットの行動に適応させた情報を教師として用いる強化学習手法を提案する。2対1の追跡-逃避や、サッカーの2対2および4対8などの限定的な状況において、ベースラインと比べてデータを模倣し、かつ報酬を獲得できるエージェントを学習したことを示した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1E5-GS-5] エージェント：

[1E5-GS-5-04] 実世界マルチエージェントの手本を用いた強化学習における適応的な行動の活用

パスワード