マルチモーダル言語処理に基づくFetch-and-Carryタスクの自動化と実行

神原 元就

18:10 〜 18:30

[2I6-OS-4a-03] マルチモーダル言語処理に基づくFetch-and-Carryタスクの自動化と実行

〇神原元就¹、杉浦孔明¹ (1. 慶應義塾大学)

キーワード：fetch-and-carryタスク、object grounding、マルチモーダル言語処理、Vision & Language、生活支援ロボット

本論文では，Fetch-and-Carryタスクについての自由形式な自然言語指示文が与えられたうえで，ロボットが指示を実行する，Fetch-and-Carry with Object Grounding (FCOG)タスクを扱う．FCOGタスクにおける既存手法では，指示文が自由形式である場合多様な参照表現を適切に理解することが難しかった．また，既存フレームワークでは，固定されたタスクのみで評価を行っていた．本研究では，FCOGタスクに対して，4つのサブタスクに分割し解決するアプローチを提案すると共に，マルチモーダル言語理解モデルにおいて，言語特徴量および画像特徴量を適切にモデリングするためのMultimodal Parallel Feature Extractorを導入する．また，自由形式な自然言語指示文のクロスモーダル言語生成を含む，生成，実行，及び評価についての完全自動化のためのフレームワークを提案する．実験結果より，提案手法における言語理解モジュールは参照表現理解タスクにおいて既存手法を上回る精度であった．また，提案手法は，FCOGタスクにおけるタスク成功率で既存手法を上回った．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[2I6-OS-4a] 信頼と文脈のインタラクションデザイン

[2I6-OS-4a-03] マルチモーダル言語処理に基づくFetch-and-Carryタスクの自動化と実行

パスワード