[A-10-8] Safe deep reinforcement learning with arbitration mechanism and supervisor among agents
Keywords:強化学習、スーパバイザ制御、安全
深層強化学習は複雑なタスクの方策も学習できる手法として活用が進んでいる。しかし,試行錯誤による探索を伴うため,学習途中などで望ましくない行動をとる可能性がある。また,深層ニューラルネットワーク内部の判断を説明することは困難であり,動作の安全性を理論的に保証することは難しい。これに対し,安全な強化学習を指向した研究が行われている。本研究では,複数のエージェントが存在し,それぞれに学習を進める環境下にスーパバイザと調停器を導入する。安全のために許容される行動の集合をスーパバイザが提示し,調停器によりその中から最適な行動を選択する新たな深層強化学習の枠組みを提案する。
Abstract password authentication.
Password is required to view the abstract. Please enter a password to authenticate.