深層逆強化学習による自動運転の安心走行実現

岸川 大航

16:50 〜 17:10

[3K4-J-2-04] 深層逆強化学習による自動運転の安心走行実現

〇岸川大航¹、荒井幸代¹ (1. 千葉大学)

キーワード：深層逆強化学習、自動運転

自動運転の実現に向けては，安全性だけでなく，搭乗者の快適性が必要とされている．本論文ではこれを安心走行と定義する．快適性に対する期待は設計者によって異なるため，安心走行をルールベースのアルゴリズムとして設計することは困難である．これに対して，エージェントの試行錯誤によって最適方策を学習する深層強化学習の導入が検討されている．一般に，深層強化学習における報酬は設計者によって定義されるが，安心走行は定量的な表現が困難であり，設計者による報酬で安心走行を獲得できる保証はない．そこで本論文では，線形可解マルコフ決定過程を利用した深層逆強化学習であるLogReg-IRLを用いて，安心走行の基準を満たす軌跡と満たさない軌跡から状態依存のコストと状態価値を推定し，これらを用いて計算されるシェーピング報酬を用いた学習により安心走行を獲得する手法を提案する．実験では，安心走行の基準をY軸方向の加速度とし，結果として基準を満たす走行を獲得した．また，シェーピング報酬の計算に用いる状態依存のコスト関数の状態入力に対する勾配を計算することで，報酬の計算に影響を与えている状態入力を明らかにすることができた．

講演情報

[3K4-J-2] 機械学習: 実環境との相互作用

[3K4-J-2-04] 深層逆強化学習による自動運転の安心走行実現