16:30 〜 16:50
[2A5-GS-2-04] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地
キーワード:視覚的言語接地、3D視覚と言語
本研究では異なるRGB-Dスキャンを用いたデータセット横断3D言語接地課題(Cross3DVG)について紹介する.Cross3DVGのため,我々は3RScanデータセットの1,380のRGB-Dスキャン中の3D物体に対して63,000件以上の多様な言語記述を人手で付与し,新規の大規模3D言語接地データセットRIOReferを作成した.これはScanNetをもとにした3D言語接地データセットScanReferの52,000件の言語記述に匹敵する.我々は,RIOReferとScanReferを用いて,1方の3D言語接地データセットでモデルを訓練し,もう片方の3D言語接地データセットで評価を行った.従来の言語接地モデルとCLIPベースの2D-3D統合手法を用いた広範な実験により(i)データセットを横断した3D言語接地は単一のデータで学習した場合と比べて性能が著しく低下すること(ⅱ)より良い3D物体検出器とTransformerを用いた物体選択が有用であること(ⅲ)CLIPがCross3DVGに有効であることがわかった.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。