[4Xin2-27] 登場する物体の左右の位置関係を含む画像キャプション生成
キーワード:画像キャプション生成
画像キャプション生成は,画像の内容を説明する文章を自動的に生成する技術である.キャプションの生成により,画像の詳細な理解につながると期待される.しかし,一般的に生成されるキャプションには画像内のオブジェクトの位置関係が含まれていない.本研究では,画像に登場する二つのオブジェクト(人物,動物,乗り物など)について左右の位置関係を含むキャプションの生成を行う.画像キャプション生成タスクに使用される学習データセットには,基本的に位置関係が含まれていない.そこで,既存の学習データセットに位置関係を追加したキャプションを作成し,それを使用して学習を行った.学習にはVision and LanguageモデルであるGITを使用した.二つのオブジェクトが写る画像を使用し,キャプション生成テストをした.結果,生成されたキャプションにはオブジェクトの左右の位置関係が含まれていることが確認できた.今回作成したデータセットを使用することにより,キャプションに含まれる情報量を増やすことができ,これが画像のより詳細な理解につながると考える.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。