Vision-and-Language Navigationタスクにおける敵対的サブゴール生成

石川 慎太朗

09:00 〜 09:20

[2O1-GS-7-01] Vision-and-Language Navigationタスクにおける敵対的サブゴール生成

〇石川慎太朗¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：Vision-and-Language Navigation、敵対的学習、ロボット、自然言語処理、画像処理

本研究では、家庭環境において、人間の指示文をもとに生活支援タスクを実行するエージェントの構築を目的とする。例えば「マグカップを洗ってコーヒーメーカーに置く」という指示文が与えられたときに、エージェントは、マグカップを見つけて洗浄し、コーヒーメーカーの元に運ぶといった動作を要求される。しかし、これには指示文を複数のサブゴールに分解し、それらを正しい順序で実行する必要があり、タスクの遂行は容易ではない。実際に、ALFREDベンチマークにおいても、既存手法は人間のパフォーマンスに遠く及ばない。これは、既存手法がしばしばサブゴールの予測に失敗することが部分的な要因である。我々は、サブゴールの生成過程に対して、モーメントを利用した敵対的学習を提案する。命令文、サブゴール群、状態表現の各埋め込み空間に敵対的な摂動を付与することによって、多様な環境を扱うことが可能となる。ALFREDベンチマークを使用し、ベースライン手法と比較を行った結果について報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2O1-GS-7] 画像音声メディア処理：生成

[2O1-GS-7-01] Vision-and-Language Navigationタスクにおける敵対的サブゴール生成

パスワード