10:20 〜 10:40
[4J1-GS-6d-05] Case Relation Transformerに基づく対象物体及び目標領域の参照表現を含む物体操作指示文生成
キーワード:マルチモーダル、自然言語生成、対象物体、目標領域
本研究の目的は、クロスモーダル言語生成モデルによりデータセットを拡張することである.本論文では,"Move the blue flip-flop to the lower left box"等,画像から物体移動指示文を生成するCase Relation Transformer(CRT)を提案する.既存手法とは異なり,CRTはTransformerを使用して画像特徴量及び幾何的特徴量を統合する.また,CRTはCase Relation Blockの導入により,対象物体及び目標領域を扱うことができる.実験ではベースライン手法との比較実験及び人間による評価を行った. 結果より,CRTがベースライン手法を主要尺度で上回ることが示された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。