1:00 PM - 1:20 PM
[4S2-GS-2-04] Estimating success probabilities with weighted loss function and frame stacking in safe deep reinforcement learning
Keywords:Machine Learning, Reinforcement Learning, Safe Reinforcement Learning, Deep Learning
近年,自動運転や被災地をはじめとする外部からの影響を受けやすい危険な環境におけるAIの活躍が期待されており,エージェントが危険な状況に陥ることを自律的に回避するために強化学習が取り入れられている.強化学習により危機回避行動を学習する枠組みを安全な強化学習と言い,この枠組みの手法の一つに「連続空間における成功確率と収益に基づく安全な強化学習(SACEQ)」がある.SACEQは,離散空間でのみ行える「成功確率と収益に基づく強化学習(EQ)」を連続空間で扱えるように拡張した手法である.しかし,連続空間において成功確率推定ネットワークの学習ができず,危機回避行動の獲得には至らないという問題があった.そこで,本論文では,成功確率推定ネットワークを学習する手法を提案する.危険の回避が必要な環境を模したPoint-Goal問題における実験において,本手法の有効性を確認した.
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.