2025年度 人工知能学会全国大会(第39回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[1Win4] ポスターセッション1

2025年5月27日(火) 15:30 〜 17:30 W会場 (イベントホールD-E)

[1Win4-52] Crosslingual Visual Promptに基づくテキスト付き画像からの日常物体検索

〇戸倉 健登1、是方 諒介1、小松 拓実1、今井 悠人1、杉浦 孔明1 (1.慶應義塾大学)

キーワード:マルチモーダル検索、多言語ビジュアルプロンプト、生活支援ロボット

生活支援ロボットによる日常物体の検索・操作タスクにおいて,画像内のテキスト情報 (scene text) に基づく対象物体理解は重要である.しかし,事前に収集された画像群から対象画像を検索するタスクをMLLMのみを用いて解くのは現実的ではない.そこで,本研究ではCrosslingual Visual Prompを用いたMLLMによる画像説明に基づいた,scene textに頑健な画像特徴量を導入する.さらに,モデルの訓練および評価を行うため,屋内外で撮影されたscene textを含む画像と,参照表現を含む多様なクエリで構成されるデータセットを新規に構築した.実験の結果,マルチモーダル検索タスクの標準的な評価尺度において,提案手法はベースライン手法を上回った.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード