2024年度 人工知能学会全国大会(第38回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[4Xin2] ポスターセッション2

2024年5月31日(金) 12:00 〜 13:40 X会場 (イベントホール1)

[4Xin2-27] 登場する物体の左右の位置関係を含む画像キャプション生成

〇守屋 響1、大和 淳司1 (1.工学院大学)

キーワード:画像キャプション生成

画像キャプション生成は,画像の内容を説明する文章を自動的に生成する技術である.キャプションの生成により,画像の詳細な理解につながると期待される.しかし,一般的に生成されるキャプションには画像内のオブジェクトの位置関係が含まれていない.本研究では,画像に登場する二つのオブジェクト(人物,動物,乗り物など)について左右の位置関係を含むキャプションの生成を行う.画像キャプション生成タスクに使用される学習データセットには,基本的に位置関係が含まれていない.そこで,既存の学習データセットに位置関係を追加したキャプションを作成し,それを使用して学習を行った.学習にはVision and LanguageモデルであるGITを使用した.二つのオブジェクトが写る画像を使用し,キャプション生成テストをした.結果,生成されたキャプションにはオブジェクトの左右の位置関係が含まれていることが確認できた.今回作成したデータセットを使用することにより,キャプションに含まれる情報量を増やすことができ,これが画像のより詳細な理解につながると考える.

要旨・抄録、PDFの閲覧には参加者用アカウントでのログインが必要です。参加者ログイン後に閲覧・ダウンロードできます。
» 参加者用ログイン