Crosslingual Visual Promptに基づくテキスト付き画像からの日常物体検索

戸倉 健登; 是方 諒介; 小松 拓実; 今井 悠人; 杉浦 孔明

[1Win4-52] Crosslingual Visual Promptに基づくテキスト付き画像からの日常物体検索

〇戸倉健登¹、是方諒介¹、小松拓実¹、今井悠人¹、杉浦孔明¹ (1.慶應義塾大学)

キーワード：マルチモーダル検索、多言語ビジュアルプロンプト、生活支援ロボット

生活支援ロボットによる日常物体の検索・操作タスクにおいて，画像内のテキスト情報 (scene text) に基づく対象物体理解は重要である．しかし，事前に収集された画像群から対象画像を検索するタスクをMLLMのみを用いて解くのは現実的ではない．そこで，本研究ではCrosslingual Visual Prompを用いたMLLMによる画像説明に基づいた，scene textに頑健な画像特徴量を導入する．さらに，モデルの訓練および評価を行うため，屋内外で撮影されたscene textを含む画像と，参照表現を含む多様なクエリで構成されるデータセットを新規に構築した．実験の結果，マルチモーダル検索タスクの標準的な評価尺度において，提案手法はベースライン手法を上回った．

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1Win4] ポスターセッション1

[1Win4-52] Crosslingual Visual Promptに基づくテキスト付き画像からの日常物体検索

パスワード