[A-10-8] エージェント間の調停機構とスーパバイザによる安全な深層強化学習
キーワード:強化学習、スーパバイザ制御、安全
深層強化学習は複雑なタスクの方策も学習できる手法として活用が進んでいる。しかし,試行錯誤による探索を伴うため,学習途中などで望ましくない行動をとる可能性がある。また,深層ニューラルネットワーク内部の判断を説明することは困難であり,動作の安全性を理論的に保証することは難しい。これに対し,安全な強化学習を指向した研究が行われている。本研究では,複数のエージェントが存在し,それぞれに学習を進める環境下にスーパバイザと調停器を導入する。安全のために許容される行動の集合をスーパバイザが提示し,調停器によりその中から最適な行動を選択する新たな深層強化学習の枠組みを提案する。
講演論文集PDFを閲覧したい場合はパスワードを入力してください。
パスワードは、講演参加申込者、聴講参加申込者にメールで御連絡しております。