マルチエージェント経路計画における報酬を通じた協調行動の獲得

菅原 温人

18:40 〜 19:00

[1D5-OS-24c-04] マルチエージェント経路計画における報酬を通じた協調行動の獲得

〇菅原温人¹、戸田浩之¹ (1. 横浜市立大学)

キーワード：マルチエージェント経路計画、強化学習、報酬設計

現在地から目的地まで，複数の行動主体が衝突することなく移動する経路を計画する問題は，マルチエージェント経路計画問題(Multi-Agent Path Finding)として定式化される．
近年，マルチエージェント経路計画に対して強化学習を用いたアプローチが注目されており，行動主体それぞれが独立して学習する枠組みで複雑な環境での実験に成功した手法が存在する．しかしこの手法では，自己利益の追求により他者の行動を妨害し，システム全体のパフォーマンスが低下するという課題がある．
本研究では，強化学習を活用するアプローチにおいて，行動主体それぞれが独立して学習する際の報酬の設定に着目し，他エージェントを考慮した協調行動の獲得を目指す．具体的には，各エージェントの報酬に他エージェントの行動が与える影響を組み込み，その影響範囲を適切に調整することで，より効率的な協調行動の学習を実現する．本手法と既存研究との比較を通じ，システム全体の性能向上を達成することを目的とする．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1D5-OS-24c] Behavioral Data Science: 行動インサイトとAI・機械学習・最適化

[1D5-OS-24c-04] マルチエージェント経路計画における報酬を通じた協調行動の獲得

パスワード