2025年度 人工知能学会全国大会(第39回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-41 世界モデルと知能

[1B3-OS-41a] 世界モデルと知能

2025年5月27日(火) 13:40 〜 15:20 B会場 (小ホール)

オーガナイザ:鈴木 雅大(東京大学),岩澤 有祐(東京大学),河野 慎(東京大学),熊谷 亘(オムロンサイニックエックス),松嶋 達也(東京大学),Paavo Parmas(東京大学),谷口 尚平(東京大学)

15:00 〜 15:20

[1B3-OS-41a-05] 部分観測マルチエージェント環境におけるマルコフ性と報酬予測性を保証する自己および他者モデリング

〇山下 佳威1、鈴木 雅大1、松尾 豊1 (1. 東京大学)

キーワード:マルチエージェントシステム、表現学習、強化学習

近年,マルチエージェント環境における強化学習の進展により,エージェントが相手の内部状態や戦略を推論するOpponent-Modelingの重要性が強調されている.近年の研究では、部分観測環境におけるOpponent-Modelingのために,実行時の相手の情報へのアクセスを制限したAutoEncoderベースの潜在表現が検討されている.
強化学習において,マルコフ決定過程では,方策や価値関数への入力となる状態は マルコフ性を満たし,将来の報酬を予測するための十分統計量である必要がある.しかし,部分観測環境における多くのOpponent-Modeling手法は,潜在表現が相手の情報を再構成することのみに注目し,その表現がマルコフ性や報酬予測性を保持することを保証していない.
この課題を解決するために、本研究では他者だけでなく自己もモデリングする表現学習手法を提案する.本手法を実験により検証し,部分観測環境におけるOpponent-Modelingの性能向上に有効であることを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード