14:40 〜 15:00
[1Q3-GS-11-05] Multimodal Attention Branch Networkに基づく把持命令文の生成
キーワード:マルチモーダル言語生成、生活支援ロボット
生活支援ロボットは,在宅介護労働者の不足に対する有望な解決策である.
一方で,生活支援ロボットの主な制限の1つに,言語を介して自然に相互作用できない点がある.
近年の研究では,data-drivenのアプローチがあいまいな指示の処理に有効であることが示されているものの,大規模なデータセットを必要とすることが多く,その構築は時間と費用を要する.
したがって,生活支援ロボットにおける命令文の自動生成手法は,このコストを大幅に削減し,アノテーション作業の負担を軽減することが期待できる.
そこで本稿では,入力画像から把持命令文を生成する手法を提案する.
提案手法は,subword-levelの注意機構を持ち,subword embeddingに基づいて文を生成するMultimodal Attention Branchを有する.
実験では,画像キャプショニングに適した4つの標準的な尺度を使用して提案手法とベースライン手法との比較を行った.
実験結果では,提案手法がこれらの尺度においてベースライン手法を上回ることを示した.
一方で,生活支援ロボットの主な制限の1つに,言語を介して自然に相互作用できない点がある.
近年の研究では,data-drivenのアプローチがあいまいな指示の処理に有効であることが示されているものの,大規模なデータセットを必要とすることが多く,その構築は時間と費用を要する.
したがって,生活支援ロボットにおける命令文の自動生成手法は,このコストを大幅に削減し,アノテーション作業の負担を軽減することが期待できる.
そこで本稿では,入力画像から把持命令文を生成する手法を提案する.
提案手法は,subword-levelの注意機構を持ち,subword embeddingに基づいて文を生成するMultimodal Attention Branchを有する.
実験では,画像キャプショニングに適した4つの標準的な尺度を使用して提案手法とベースライン手法との比較を行った.
実験結果では,提案手法がこれらの尺度においてベースライン手法を上回ることを示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。