14:20 〜 14:40
[3J4-GS-5-03] 獲物が学習を続ける追跡問題での獲物の行動の変化に対応できる好奇心探索の利用
キーワード:マルチエージェント、強化学習
マルチエージェント環境の追跡問題は、報酬を得ることが困難で、強化学習では協調行動の学習が難しいという課題がある。これまで、目新しい状態に内部報酬を与える好奇心探索手法のRNDにより、エージェントが協調行動を学習し獲物を多く捕まえたことが示されている。しかし、獲物が学習により行動を変化する場合に、獲物の行動が状態に含まれていたとしても、その他の要素により目新しくないと判断されて内部報酬が小さくなる問題があった。これでは学習する獲物の行動変化に対応する協調行動の学習には不十分で、行動変化に対し内部報酬を発生させ探索させる必要がある。そこで、RNDのターゲットネットワークを状態の特定の要素の違いに応じて出力を離すように学習するSNDを用いることを提案する。獲物の速度が異なる状態間の距離を離すように学習させることで、状態の他の要素が同じでも獲物の速度が異なればターゲットネットワークの出力が大きく変化するため、獲物の行動の変化による速度の違いが目新しい状態に繋がり、内部報酬を生成させることができる。提案手法のターゲットネットワークの特徴表現や内部報酬、獲得報酬をRNDと比較して評価した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。