確率分布を用いた画像テキストデータの埋め込みと検索

濱 健太

17:10 〜 17:30

[3L2-05] 確率分布を用いた画像テキストデータの埋め込みと検索

〇濱健太¹、松原崇¹、上原邦昭¹ (1. 神戸大学　大学院システム情報学研究科計算科学専攻)

キーワード：マルチモーダル、検索、表現学習

インターネット上で画像, 音声, テキスト等のマルチモーダルデータの蓄積が進んでいる. このような背景で, 複数のモダリティの異なるデータ上で, データの分類, 生成, 検索といったタスクに転用が可能な,汎用的なデータ表現の獲得に, 大きな期待が寄せられている.このマルチモーダルなデータ表現獲得を実現するために現在よく用いられている手法は, 各モダリティのデータ空間から共通の空間上の点へ埋め込みを行うことである.しかし, データを点へ埋め込む場合, データの持つ意味の曖昧さや, データ間の包含関係などの解釈が困難になる.データの表現は必ずしも空間上の点である必要はない.本研究では, 画像, テキストという2種類のモダリティの異なるデータを共通の空間上の正規分布へ埋め込む.これにより, 分布への埋め込みを行う場合, 画像の検索において精度が向上した.

講演情報

[3L2] 機械学習-画像応用・マルチモーダル

[3L2-05] 確率分布を用いた画像テキストデータの埋め込みと検索