2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

オーガナイズドセッション » [オーガナイズドセッション] OS-6 自律・創発・汎用AIアーキテクチャ

[2L2-OS-6a] 自律・創発・汎用AIアーキテクチャ(1)

2018年6月6日(水) 13:20 〜 15:00 L会場 (3F サファイアホール飛鳥)

14:00 〜 14:20

[2L2-OS-6a-03] Generative Adversarial Imitation Learningにタスク達成報酬を付加した動作の学習

〇黄瀬 輝1、谷口 忠大1 (1. 立命館大学)

キーワード:強化学習、逆強化学習、Learning from Demonstlation、Generative Adversarial Networks

マニピュレーションタスクにおいて,人間の腕のような複雑な動作のプログラムを手動で作成することは非常にコストが高い.
一方,機械学習を用いたマニピュレーション制御は行動の取りうる範囲が膨大であるため,ロボットが人間によるデモンストレーション無しで学習を行うことは困難である.
このような理由から,人間の教示によってロボットの動作を獲得することが必要である.
本研究では,近年のLearning from Demonstration (LfD)の代表的な手法であるGenerative Adversarial Imitation Learning (GAIL) に基づき,タスク達成報酬を新たに導入することで,タスクのゴールが存在するシミュレーション環境のマニピュレーション学習を行う.
結果として,提案手法は一部のタスクにおいてエキスパート軌道のスコアと同等のスコアを示す方策の学習に成功した.