17:10 〜 17:30
[3L2-05] 確率分布を用いた画像テキストデータの埋め込みと検索
キーワード:マルチモーダル、検索、表現学習
インターネット上で画像, 音声, テキスト等のマルチモーダルデータの蓄積が進んでいる. このような背景で, 複数のモダリティの異なるデータ上で, データの分類, 生成, 検索といったタスクに転用が可能な,汎用的なデータ表現の獲得に, 大きな期待が寄せられている.このマルチモーダルなデータ表現獲得を実現するために現在よく用いられている手法は, 各モダリティのデータ空間から共通の空間上の点へ埋め込みを行うことである.しかし, データを点へ埋め込む場合, データの持つ意味の曖昧さや, データ間の包含関係などの解釈が困難になる.データの表現は必ずしも空間上の点である必要はない.本研究では, 画像, テキストという2種類のモダリティの異なるデータを共通の空間上の正規分布へ埋め込む.これにより, 分布への埋め込みを行う場合, 画像の検索において精度が向上した.