2022年度 人工知能学会全国大会(第36回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[2O1-GS-7] 画像音声メディア処理:生成

2022年6月15日(水) 09:00 〜 10:40 O会場 (Room 510)

座長:栗田 修平(理化学研究所)[現地]

09:00 〜 09:20

[2O1-GS-7-01] Vision-and-Language Navigationタスクにおける敵対的サブゴール生成

〇石川 慎太朗1、杉浦 孔明1 (1. 慶應義塾大学)

キーワード:Vision-and-Language Navigation、敵対的学習、ロボット、自然言語処理、画像処理

本研究では、家庭環境において、人間の指示文をもとに生活支援タスクを実行するエージェントの構築を目的とする。例えば「マグカップを洗ってコーヒーメーカーに置く」という指示文が与えられたときに、エージェントは、マグカップを見つけて洗浄し、コーヒーメーカーの元に運ぶといった動作を要求される。しかし、これには指示文を複数のサブゴールに分解し、それらを正しい順序で実行する必要があり、タスクの遂行は容易ではない。実際に、ALFREDベンチマークにおいても、既存手法は人間のパフォーマンスに遠く及ばない。これは、既存手法がしばしばサブゴールの予測に失敗することが部分的な要因である。我々は、サブゴールの生成過程に対して、モーメントを利用した敵対的学習を提案する。命令文、サブゴール群、状態表現の各埋め込み空間に敵対的な摂動を付与することによって、多様な環境を扱うことが可能となる。ALFREDベンチマークを使用し、ベースライン手法と比較を行った結果について報告する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード