2024年度 人工知能学会全国大会(第38回)

講演情報

オーガナイズドセッション

オーガナイズドセッション » OS-16 世界モデルと知能

[2O6-OS-16a] 世界モデルと知能

2024年5月29日(水) 17:30 〜 18:50 O会場 (音楽工房ホール)

オーガナイザ:鈴木 雅大(東京大学)、岩澤 有祐(東京大学)、河野 慎(東京大学)、熊谷 亘(東京大学)、松嶋 達也(東京大学)、森 友亮(株式会社スクウェア・エニックス)、松尾 豊(東京大学)

17:50 〜 18:10

[2O6-OS-16a-02] マルチモーダル基盤モデルと最適輸送を用いたポリゴンマッチングによる参照表現セグメンテーション

〇西村 喬行1、九曜 克之1、神原 元就1、杉浦 孔明1 (1. 慶應義塾大学)

キーワード:生活支援タスク、参照表現セグメンテーション、最適輸送を用いたポリゴンマッチング、マルチモーダル基盤モデル、3次元点群

家庭環境内で物体の位置が頻繁に変化するため、ロボットが最新の物体位置を迅速かつ正確に把握することが重要である。そこで、本研究では、ユーザから与えられる指示文をもとに対象物体を特定するタスクである、OSMI-3Dタスクを扱う。視覚的基盤モデルとマルチモーダルLLMを用いた3次元点群データに基づく参照表現セグメンテーションに基づいて生活支援ロボットが家庭環境内の物体を効率的に操作するための手法を提案する。本研究における主要な新規性は、シーンナラティブモジュールを導入した点である。本モジュールでは、マルチモーダルLLMを既存の画像特徴量抽出器と組み合わせることで、画像から言語を媒介しつつ構造的な特徴量を抽出する。実験では、本手法が従来のベースライン手法よりもmean IoUおよびprecision@0.5-0.9において優れた性能を示し、OSMI-3Dタスクにおいて有効であることを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード