2018年度人工知能学会全国大会(第32回)

講演情報

インタラクティブ発表

一般セッション » インタラクティブ

[3Pin1] インタラクティブ(1)

2018年6月7日(木) 09:00 〜 10:40 P会場 (4F エメラルドロビー)

09:00 〜 10:40

[3Pin1-05] 線形可解マルコフ決定過程のためのバッチ強化学習

〇西 智樹1、大滝 啓介1、吉村 貴克1 (1. (株)豊田中央研究所)

キーワード:強化学習、線形可解マルコフ決定過程

線形可解マルコフ決定過程(L-MDP)は効率的に政策を学習することができるマルコフ決定過程のサブクラスの一つである.これまでL-MDPのための離散行動空間におけるバッチ強化学習は提案されておらず,交通信号機制御などの行動が離散的に表現される問題に対して適用することができなかった.そこで我々は予め収集したデータから状態価値関数と次状態における状態価値の予測モデルの学習を通して,より良い政策を探索する離散行動空間におけるL-MDPのためのバッチ強化学習を提案する.我々はよく知られた交通シミュレータであるSUMOを用いて1交差点での交通信号機制御により提案法の評価を行った.実験結果から提案法は予め収集したデータのみからQ学習に比べ効率的に政策を学習することができることが分かった.