17:40 〜 18:00
[1E5-GS-5-03] マルチエージェント強化学習環境下における有用な評価関数の特定
キーワード:強化学習、内発的動機付け強化学習、遺伝的プログラミング
複数のエージェントが存在するマルチエージェント環境においては、エージェント同士が干渉し合い、全エージェントの報酬を同時に最大化することが不可能なことが多い。そのため、報酬の最大化を追求する強化学習による協調行動の学習は困難である。一方、学習と意思決定を行う際に複数の情報を参照する内発的動機付け強化学習(IMRL)フレームワークの下で、Sequeiraらは、遺伝的プログラミング(GP)により、シングルエージェント環境における意思決定に有用な評価関数を特定した。本研究では、この手法をマルチエージェント環境に適用する。複数のエージェントが獲物を捕獲する追跡問題において、それぞれ独立に学習するエージェントが獲物を捕獲するための協調行動を学習するために有用な評価関数を、GPにより特定できるかを検証する。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。