2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-2 機械学習

[3K4-J-2] 機械学習: 実環境との相互作用

2019年6月6日(木) 15:50 〜 17:30 K会場 (201A 中会議室)

座長:木村 大毅(日本アイ・ビー・エム株式会社) 評者:梶野 洸(日本IBM)

16:50 〜 17:10

[3K4-J-2-04] 深層逆強化学習による自動運転の安心走行実現

〇岸川 大航1、荒井 幸代1 (1. 千葉大学)

キーワード:深層逆強化学習、自動運転

自動運転の実現に向けては,安全性だけでなく,搭乗者の快適性が必要とされている.本論文ではこれを安心走行と定義する.快適性に対する期待は設計者によって異なるため,安心走行をルールベースのアルゴリズムとして設計することは困難である.これに対して,エージェントの試行錯誤によって最適方策を学習する深層強化学習の導入が検討されている.一般に,深層強化学習における報酬は設計者によって定義されるが,安心走行は定量的な表現が困難であり,設計者による報酬で安心走行を獲得できる保証はない.そこで本論文では,線形可解マルコフ決定過程を利用した深層逆強化学習であるLogReg-IRLを用いて,安心走行の基準を満たす軌跡と満たさない軌跡から状態依存のコストと状態価値を推定し,これらを用いて計算されるシェーピング報酬を用いた学習により安心走行を獲得する手法を提案する.実験では,安心走行の基準をY軸方向の加速度とし,結果として基準を満たす走行を獲得した.また,シェーピング報酬の計算に用いる状態依存のコスト関数の状態入力に対する勾配を計算することで,報酬の計算に影響を与えている状態入力を明らかにすることができた.