[1Win4-52] Crosslingual Visual Promptに基づくテキスト付き画像からの日常物体検索
キーワード:マルチモーダル検索、多言語ビジュアルプロンプト、生活支援ロボット
生活支援ロボットによる日常物体の検索・操作タスクにおいて,画像内のテキスト情報 (scene text) に基づく対象物体理解は重要である.しかし,事前に収集された画像群から対象画像を検索するタスクをMLLMのみを用いて解くのは現実的ではない.そこで,本研究ではCrosslingual Visual Prompを用いたMLLMによる画像説明に基づいた,scene textに頑健な画像特徴量を導入する.さらに,モデルの訓練および評価を行うため,屋内外で撮影されたscene textを含む画像と,参照表現を含む多様なクエリで構成されるデータセットを新規に構築した.実験の結果,マルチモーダル検索タスクの標準的な評価尺度において,提案手法はベースライン手法を上回った.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。