環境モデルの逐次推定導入による検証可能な強化学習

永田 健斗

18:50 〜 19:10

[2E6-GS-8-05] 環境モデルの逐次推定導入による検証可能な強化学習

～獲得方策の理解による安全なAIの実現～

〇永田健斗¹、荒井幸代¹ (1. 千葉大学)

キーワード：強化学習、モデル推定、逐次推定、Safe AI

自動車やプラントなどの制御タスクは，環境を数理モデルで記述する制御理論の導入が一般的である．そのため，可読性や信頼性が高く，安定性の保証がされる一方，数理モデルは運動方程式などの第一原理モデリングで構築されることが多いため，自律飛行ドローンなどの非線形性や不安定性を持つタスクへの導入には限界がある．これに対して，強化学習は環境モデルを必要せずに制御方策が得られることから，実世界への適用が進められている．しかし，その方策はニューラルネットワークの重みに過ぎないことから，合理性や安定性の保証は難しい．そこで，本研究では深層強化学習の方策の解釈や安定性を獲得することを目的とし，強化学習の試行錯誤の過程で得られる行動と状態の軌跡を活用し，環境モデルを陽に推定する手法を提案する．その結果，システム同定を施すことで線形モデルとして推定したが，より解釈可能なモデル構築のために，その解析や手法の改善の必要がある．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2E6-GS-8] ロボットと実世界：

[2E6-GS-8-05] 環境モデルの逐次推定導入による検証可能な強化学習

～獲得方策の理解による安全なAIの実現～

パスワード