群集誘導戦略最適化に向けた多目的深層強化学習に関する研究

西田 遼

14:50 〜 15:10

[3G4-OS-15b-01] 群集誘導戦略最適化に向けた多目的深層強化学習に関する研究

〇西田遼^1,2、谷垣勇輝²、大西正輝²、橋本浩一¹ (1. 東北大学、2. 産業技術総合研究所)

キーワード：深層強化学習、多目的最適化、群集制御

本研究では，リアルタイム対応可能かつ複数指標を考慮した，群集の誘導戦略の最適化に向けて，多目的深層強化学習 (Multi Objective Deep Reinforcement Learning; MODRL) を改良することを目的とする．一般的にMODRL は，Outer-loop method とInner-loop method に分類される．前者は，スカラー化関数により複数の目的関数を単一の目的へと変換する．そして，スカラー化関数の重みの更新と単目的最適化を繰り返すことで，最適解集合であるパレートフロントを求める．しかし，この方法では，単目的最適化に計算コストがかかると，重みの更新回数に比例して全体の計算コストも大きくなってしまう．一方，後者のInner-loop method は，複数の方策を一度に学習するように設計された手法である．本研究では，Inner-loop method の代表的な手法であるPareto-DQN を対象に，行動選択基準の違いによるパレート解の近似について検証する．実験では，ベンチマーク問題を用いて提案手法の評価を行い，最後に群集の誘導戦略の最適化への適用について議論する．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[3G4-OS-15b] 移動系列のデータマイニングと機械学習(2/2)

[3G4-OS-15b-01] 群集誘導戦略最適化に向けた多目的深層強化学習に関する研究

パスワード