[2Win5-30] 学習データ生成による Composed Image Retrieval の高精度化に関する検討
テキスト整形処理を用いた反実仮想画像生成モデルの導入
キーワード:構成画像検索、反実仮想画像生成、データ拡張
本文では,構成画像検索 (Composed Image Retrieval: CIR) における反実仮想画像生成モデルを用いた学習データ生成手法を提案する.CIRは,画像およびテキストの両方をクエリとすることによって,単一の情報では表現が困難な細かなニュアンスを扱うことができる検索手法であり,画像データの効率的な検索のために必要不可欠な技術である.しかしながら,CIRモデルの学習には参照画像,修正テキスト,および目的画像の3つの要素で構成されるデータ (Triplet データ) が大量に必要となるため,学習用データセットの構築には多大な時間と労力を要する.この課題を解決するため,テキスト整形処理を導入した反実仮想画像生成モデルを用いて多様な Triplet データを効率的に拡張する手法を提案する.CIRにおける2種類のベンチマークデータセットを用いた実験により,提案手法で拡張した学習データセットがCIRモデルの性能を改善するために十分な品質を有していることが確認された.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。