線形可解マルコフ決定過程のためのバッチ強化学習

西 智樹

09:00 〜 10:40

[3Pin1-05] 線形可解マルコフ決定過程のためのバッチ強化学習

〇西智樹¹、大滝啓介¹、吉村貴克¹ (1. （株）豊田中央研究所)

キーワード：強化学習、線形可解マルコフ決定過程

線形可解マルコフ決定過程(L-MDP)は効率的に政策を学習することができるマルコフ決定過程のサブクラスの一つである．これまでL-MDPのための離散行動空間におけるバッチ強化学習は提案されておらず，交通信号機制御などの行動が離散的に表現される問題に対して適用することができなかった．そこで我々は予め収集したデータから状態価値関数と次状態における状態価値の予測モデルの学習を通して，より良い政策を探索する離散行動空間におけるL-MDPのためのバッチ強化学習を提案する．我々はよく知られた交通シミュレータであるSUMOを用いて１交差点での交通信号機制御により提案法の評価を行った．実験結果から提案法は予め収集したデータのみからQ学習に比べ効率的に政策を学習することができることが分かった．

講演情報

[3Pin1] インタラクティブ(1)

[3Pin1-05] 線形可解マルコフ決定過程のためのバッチ強化学習