13:00 〜 13:20
[4S2-GS-2-04] 安全な深層強化学習における重み付き損失関数とフレームスタックによる成功確率の推定
キーワード:機械学習、強化学習、安全な強化学習、深層学習
近年,自動運転や被災地をはじめとする外部からの影響を受けやすい危険な環境におけるAIの活躍が期待されており,エージェントが危険な状況に陥ることを自律的に回避するために強化学習が取り入れられている.強化学習により危機回避行動を学習する枠組みを安全な強化学習と言い,この枠組みの手法の一つに「連続空間における成功確率と収益に基づく安全な強化学習(SACEQ)」がある.SACEQは,離散空間でのみ行える「成功確率と収益に基づく強化学習(EQ)」を連続空間で扱えるように拡張した手法である.しかし,連続空間において成功確率推定ネットワークの学習ができず,危機回避行動の獲得には至らないという問題があった.そこで,本論文では,成功確率推定ネットワークを学習する手法を提案する.危険の回避が必要な環境を模したPoint-Goal問題における実験において,本手法の有効性を確認した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。