16:30 〜 16:50
[3G5-OS-24b-04] 生活支援タスクにおける大規模視覚言語モデルと拡散確率モデルを用いた参照表現セグメンテーション
キーワード:参照表現セグメンテーション、拡散確率モデル、自然言語処理、画像処理、物体操作
本研究では、自然言語による命令文(例:「リビングに行って、壁のラジオアートに最も近い枕をとってきて」)を理解し、その動作対象物のセグメンテーションマスクを生成するモデルを開発することを目的とする。このタスクは、(1) 指示に含まれる複数の物体に対する参照表現を理解し、(2) その表現の中から対象物に関連する表現を予測し、(3) 画素単位のセグメンテーションマスクを生成する必要があり、困難なタスクである。
本論文では、1段階目でマスクを生成し、2段階目でそれを洗練するマルチモーダルセグメンテーションモデルMDSMを提案する。我々は、並列クロスモーダル特徴抽出機構の導入に加えて、拡散モデルを言語情報を扱えるように拡張する。また本モデルの性能を検証するために、様々な対象物を含む実世界の室内環境画像と、画素単位のセグメンテーションマスクを伴う複雑な参照表現を持つ命令から構成される新しいデータセットを構築した。MDSMは、評価尺度mIoUについてベースライン手法を10.13ポイント上回った。
本論文では、1段階目でマスクを生成し、2段階目でそれを洗練するマルチモーダルセグメンテーションモデルMDSMを提案する。我々は、並列クロスモーダル特徴抽出機構の導入に加えて、拡散モデルを言語情報を扱えるように拡張する。また本モデルの性能を検証するために、様々な対象物を含む実世界の室内環境画像と、画素単位のセグメンテーションマスクを伴う複雑な参照表現を持つ命令から構成される新しいデータセットを構築した。MDSMは、評価尺度mIoUについてベースライン手法を10.13ポイント上回った。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。