2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2C5-GS-2] 機械学習:強化学習(2)

2022年6月15日(水) 15:20 〜 17:00 C会場 (Room C-2)

座長:内部 英治(国際電気通信基礎技術研究所)[現地]

16:20 〜 16:40

[2C5-GS-2-04] DQNに基づく連続観測空間における安全な強化学習

〇大橋 宥斗1、松井 藤五郎2、武藤 敦子1、森山 甲一1、犬塚 信博1 (1. 名古屋工業大学、2. 中部大学)

キーワード:人工知能、機械学習、強化学習、安全な強化学習、深層学習

本論文では,DQNに基づいて成功確率に基づく安全な強化学習を行う方法を提案する.近年,被災地や宇宙など人が直接行けない危険な環境でロボットが活躍している.このような環境ではいつ外部からの影響でロボットが危険な状態に陥るかが予測できないため,ロボットが自律的に危険回避行動を学習することが求められる.強化学習とは試行錯誤に基づきより良い行動を学習する機械学習の手法であり,その中でも危険回避行動を学習することに着目した安全な強化学習の手法の一つとして高次元連続観測空間における安全な強化学習(HDEQ)という手法が提案されている.しかし,この手法では現実で取り組みたいロボットなどの問題の観測を扱う場合,利用しているVAEネットワークの学習がうまくいかず,学習することができない.そこで我々はHDEQと異なる方法で連続観測空間を扱うことを考え,ニューラルネットワークを用いることで観測の次元を減らすことなく連続観測空間で学習が行えるDQNに基づく手法を提案する.また,安全な強化学習のベンチマーク問題であるSafety Gymにおいてその効果を確認する.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード