14:00 〜 14:20
[2L2-OS-6a-03] Generative Adversarial Imitation Learningにタスク達成報酬を付加した動作の学習
キーワード:強化学習、逆強化学習、Learning from Demonstlation、Generative Adversarial Networks
マニピュレーションタスクにおいて,人間の腕のような複雑な動作のプログラムを手動で作成することは非常にコストが高い.
一方,機械学習を用いたマニピュレーション制御は行動の取りうる範囲が膨大であるため,ロボットが人間によるデモンストレーション無しで学習を行うことは困難である.
このような理由から,人間の教示によってロボットの動作を獲得することが必要である.
本研究では,近年のLearning from Demonstration (LfD)の代表的な手法であるGenerative Adversarial Imitation Learning (GAIL) に基づき,タスク達成報酬を新たに導入することで,タスクのゴールが存在するシミュレーション環境のマニピュレーション学習を行う.
結果として,提案手法は一部のタスクにおいてエキスパート軌道のスコアと同等のスコアを示す方策の学習に成功した.
一方,機械学習を用いたマニピュレーション制御は行動の取りうる範囲が膨大であるため,ロボットが人間によるデモンストレーション無しで学習を行うことは困難である.
このような理由から,人間の教示によってロボットの動作を獲得することが必要である.
本研究では,近年のLearning from Demonstration (LfD)の代表的な手法であるGenerative Adversarial Imitation Learning (GAIL) に基づき,タスク達成報酬を新たに導入することで,タスクのゴールが存在するシミュレーション環境のマニピュレーション学習を行う.
結果として,提案手法は一部のタスクにおいてエキスパート軌道のスコアと同等のスコアを示す方策の学習に成功した.