[4Xin2-24] ReCLIPを基にした人座標系における相対位置理解が可能な基盤モデル
キーワード:マルチモーダルAI
近年登場したCLIPは,視覚と言語の相互理解を革新的に進めたモデルとして,様々なタスクで利用されている.しかし,CLIPのエンコーダが視覚的な物体間の空間関係を十分に正しく出力できないことが先行研究により指摘されている.この指摘から,CLIPの単純な利用では言語的な相対位置理解が不十分であると考えられる.そこで本研究は,CLIPを参照表現理解という空間理解を必要とするタスクに適用させたモデルであるReCLIPを参考に,相対位置理解が可能なモデルを提案する.ReCLIPが2次元的に空間関係を処理するのに対し,提案モデルは3次元的に空間関係を処理することで相対位置理解を目指す.また本研究では,向きを踏まえた相対位置について,人座標系に限定した実装となっている.RefGTAデータセットを用いた評価実験を通し,提案モデルは「前」という空間関係に対してReCLIPから1~2%の改善を示した.また,その中に含まれる人の向きを踏まえた相対位置の推論が必要なデータに対して12~13%の改善を示した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。