2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[4Xin2] ポスターセッション2

2024年5月31日(金) 12:00 〜 13:40 X会場 (イベントホール1)

[4Xin2-24] ReCLIPを基にした人座標系における相対位置理解が可能な基盤モデル

〇池ヶ谷 健太1、田口 亮1 (1.名古屋工業大学)

キーワード:マルチモーダルAI

近年登場したCLIPは,視覚と言語の相互理解を革新的に進めたモデルとして,様々なタスクで利用されている.しかし,CLIPのエンコーダが視覚的な物体間の空間関係を十分に正しく出力できないことが先行研究により指摘されている.この指摘から,CLIPの単純な利用では言語的な相対位置理解が不十分であると考えられる.そこで本研究は,CLIPを参照表現理解という空間理解を必要とするタスクに適用させたモデルであるReCLIPを参考に,相対位置理解が可能なモデルを提案する.ReCLIPが2次元的に空間関係を処理するのに対し,提案モデルは3次元的に空間関係を処理することで相対位置理解を目指す.また本研究では,向きを踏まえた相対位置について,人座標系に限定した実装となっている.RefGTAデータセットを用いた評価実験を通し,提案モデルは「前」という空間関係に対してReCLIPから1~2%の改善を示した.また,その中に含まれる人の向きを踏まえた相対位置の推論が必要なデータに対して12~13%の改善を示した.

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン