決定木とCross-Entropy法を用いた解釈可能な制御方策の学習

田中 友紀子

10:30 〜 12:10

[3Rin2-08] 決定木とCross-Entropy法を用いた解釈可能な制御方策の学習

〇田中友紀子^1,2、平岡拓也^1,2、鶴岡慶雅^2,3 (1. NEC、2. 産業技術総合研究所、3. 東京大学)

キーワード：強化学習、決定木、Cross-Entropy法、制御方策

解釈性のある制御方策を学習することは、産業応用における安全性やメンテンナンス容易性の観点で重要である。従来法では、解釈性のある方策を獲得するためにまず期待報酬を最大化するようなブラックボックス方策を用意し、その方策を模倣するように決定木を構築している。しかしながら、ブラックボックス方策の模倣によって得られた決定木方策は必ずしも期待報酬を最大化しない。そこで本研究では、環境から得られる報酬を直接最大化するCross-Entropy法を用いた決定木方策の学習手法を提案する。そして、実験を通じ、我々の提案法によって構築された決定木方策が、従来通りブラックボックス方策の模倣によって獲得された決定木方策よりも高い期待報酬を獲得できることを示す。

講演情報

[3Rin2] インタラクティブセッション１

[3Rin2-08] 決定木とCross-Entropy法を用いた解釈可能な制御方策の学習