15:00 〜 15:20
[4A3-GS-6-04] 画像キャプショニングは画像そのものよりも多くを語る
[[オンライン]]
キーワード:CNN、Transformer、BERT
画像から説明文を生成する画像キャプショニング技術(image-to-text)は,深層学習が登場して以降急速に発展している.この画像キャプショニングによって生成される説明文において,元の画像がもつ情報はどの程度維持されるだろうか? この問いに答えるため,画像を一切見ずに説明文のみから画像を分類する実験を行い,標準的なCNNベースの画像分類との精度比較を行う.災害画像分類タスク,CrisisNLPにおいていくつかの画像キャプショニングモデルを評価し,説明文による分類器が時にCNNベースの分類器を超える精度を達成できることを示す.さらに,CNNベースの分類器と説明文による分類器を統合することでさらなる精度向上が得られることを示す.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。