2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[2A5-GS-2] 機械学習:時系列解析Ⅰ

2023年6月7日(水) 15:30 〜 17:10 A会場 (メインホール)

座長:高橋 大志(NTT) [現地]

16:30 〜 16:50

[2A5-GS-2-04] 異なるRGB-Dスキャンを用いたデータセット横断3D言語接地

〇宮西 大樹1,2、東 大地、栗田 修平2、川鍋 一晃1 (1. 国際電気通信基礎技術研究所、2. 理化学研究所 革新知能統合研究センター)

キーワード:視覚的言語接地、3D視覚と言語

本研究では異なるRGB-Dスキャンを用いたデータセット横断3D言語接地課題(Cross3DVG)について紹介する.Cross3DVGのため,我々は3RScanデータセットの1,380のRGB-Dスキャン中の3D物体に対して63,000件以上の多様な言語記述を人手で付与し,新規の大規模3D言語接地データセットRIOReferを作成した.これはScanNetをもとにした3D言語接地データセットScanReferの52,000件の言語記述に匹敵する.我々は,RIOReferとScanReferを用いて,1方の3D言語接地データセットでモデルを訓練し,もう片方の3D言語接地データセットで評価を行った.従来の言語接地モデルとCLIPベースの2D-3D統合手法を用いた広範な実験により(i)データセットを横断した3D言語接地は単一のデータで学習した場合と比べて性能が著しく低下すること(ⅱ)より良い3D物体検出器とTransformerを用いた物体選択が有用であること(ⅲ)CLIPがCross3DVGに有効であることがわかった.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード