09:20 〜 09:40
[3E1-GS-2-02] 視覚的仮説推論に関する検討
キーワード:視覚と言語、視覚的仮説推論、キャプション生成
人間は視覚的な仮説推論能力を持っており,画像中の特定の部分 (注目領域) から,画像だけでは非自明な状況を経験や知識に基づいて、拡張して推論することができる.例えば,お皿いっぱいに食べ物を盛っている人を見れば,たとえその人のことをよく知らなくても「この人はお腹が空いているのだろう」と考えることができる.では,計算機はこのような視覚的な仮説推論を行うことができるのだろうか?
本研究では,視覚的仮説推論について,画像内の物体や行動などの注目領域に対する(i)具体的な手掛かりとなる情報,および(ii)そこから推論できる情報の2つのキャプションが付与されたsherlockデータセットを用いて,非自明な仮説推論を画像からEnd-to-Endに生成できるかをを最先端の画像モデルと文章生成モデルを使用して分析する.
その結果として,事前学習済みの言語画像モデルに対し注目領域を理解するように追加学習を施し,これを文章生成モデルと組み合わせることで,ある程度視覚的な仮説推論ができることを報告する.
本研究では,視覚的仮説推論について,画像内の物体や行動などの注目領域に対する(i)具体的な手掛かりとなる情報,および(ii)そこから推論できる情報の2つのキャプションが付与されたsherlockデータセットを用いて,非自明な仮説推論を画像からEnd-to-Endに生成できるかをを最先端の画像モデルと文章生成モデルを使用して分析する.
その結果として,事前学習済みの言語画像モデルに対し注目領域を理解するように追加学習を施し,これを文章生成モデルと組み合わせることで,ある程度視覚的な仮説推論ができることを報告する.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。