2019年度 人工知能学会全国大会(第33回)

講演情報

一般セッション

一般セッション » [GS] J-2 機械学習

[2Q5-J-2] 機械学習: 先端モデルの展開

2019年6月5日(水) 17:20 〜 19:00 Q会場 (万代島ビル6F会議室)

座長:浅井 政太郎(日本アイ・ビー・エム株式会社) 評者:梶野 洸(日本IBM)

17:20 〜 17:40

[2Q5-J-2-01] エキスパートが複数の環境で生成した軌跡から報酬を推定するベイジアン逆強化学習

〇中田 勇介1、荒井 幸代1 (1. 千葉大学)

キーワード:逆強化学習、強化学習、ベイズ推定

強化学習は深層学習の導入によって多くの成果を挙げているが,タスクの目的を適切に反映した報酬の設計を必要とする.この報酬設計を回避する方法に,エキスパートの軌跡から報酬を推定する逆強化学習がある.既存の逆強化学習法の多くは、ある単一の環境で得られた軌跡からエキスパートの報酬を推定する.しかし,複数の環境におけるエキスパートの軌跡が入手可能な場合もある.例えば,自動車の運転の目的を報酬として表現することは困難だが,運転手は特定の目的の下での運転データを複数の状況で生成できる.本研究では,エキスパートが複数の環境で生成した軌跡を用いて報酬を推定する逆強化学習手法を,ベイジアン逆強化学習に基づいて定式化し,その解法を示す.Expected Value Differenceと呼ばれる指標で,提案法と既存のベイジアン逆強化学習を比較した結果,提案法が既存手法と比較して,よりエキスパートに近い報酬を推定したことを確認した.