14:20 〜 14:40
[4I3-J-2-02] 複数の報酬関数を推定可能なタスク条件付き敵対的模倣学習
キーワード:模倣学習、強化学習、逆強化学習、深層学習
模倣学習は, 教示者の行動から環境の報酬関数を推定し, その報酬の期待値を最大化する方策を学習する問題として扱う事が可能である.また, 教示者の様々な行動に対する複数の報酬関数を推定することで, 異なる目的を達成するタスクを表現することができる.しかし, 複数の報酬関数に従った教示者の行動データが与えられた場合, 学習主体は, それぞれの報酬関数を推定することが難しい.そこで本研究では敵対的模倣学習 (GAIL) を拡張し, 複数の報酬関数の推定と模倣を同時に行うアルゴリズムを提案する. 提案モデルは,GAIL における生成器と識別器の両方に,潜在変数による条件付け可能な構造を持たせる.さらに,GAIL と同様の議論によって提案する目的関数が唯一の最適解を持つことを示す.また, 生成器の学習則に対してエントロピー正則化の係数補正項を導入することで, 学習速度と獲得する方策の性能の向上を図る.本研究では, グリッドワールド内の異なるポイントへ到達するような, 複数の報酬関数を仮定した教示者の行動を模倣する実験において, 提案モデルが異なる報酬関数を同時に推定し, 各報酬関数に対して方策の学習が可能であることを確認した.