系列生成器の訓練のためのエキスパート系列に基づく報酬関数の学習方法の提案

冨山 翔司

14:00 〜 14:20

[1Z1-03] 系列生成器の訓練のためのエキスパート系列に基づく報酬関数の学習方法の提案

〇冨山翔司¹、岩澤有祐¹、松尾豊¹ (1. 東京大学)

キーワード：系列モデリング

系列生成器の訓練方法として，敵対的学習と方策勾配法を組み合わせた手法が効果的であることが知られている．
この方法では，敵対的学習の識別器を報酬関数としてみる．
本論文では，報酬関数を敵対的学習を用いずに学習する，expert-based reward function trainingを提案する．
提案手法によって学習された系列生成器が，SeqGANやRankGANといったベースラインに比べて良い性能であることを確かめた．

講演情報

[1Z1] 機械学習-機械学習基礎(1)

[1Z1-03] 系列生成器の訓練のためのエキスパート系列に基づく報酬関数の学習方法の提案