2025年度 人工知能学会全国大会(第39回)

講演情報

ポスターセッション

ポスターセッション » ポスターセッション

[1Win4] ポスターセッション1

2025年5月27日(火) 15:30 〜 17:30 W会場 (イベントホールD-E)

[1Win4-42] 大規模言語モデルを活用した物体間の左右の位置関係を含む画像キャプションデータセットの構築

〇守屋 響1、大和 淳司1 (1.工学院大学)

キーワード:画像キャプション生成、大規模言語モデル

本研究では画像に登場する二つのオブジェクトについて物体間の左右の位置関係を含む画像キャプション生成のために,大規模言語モデル(LLM)を用いて生成と相互チェックを行い新たなデータセットの構築をした.一般的なデータセットでは物体間の位置関係に関する情報が不足しており,これまでは人手で位置関係を追記したデータを使用してきた.しかし,人手による作業では多くのデータを準備することが難しいという問題がある.そこで,複数のLLMを使用し,画像から位置関係を含むキャプションを生成することでデータセットを作成した.生成されたキャプションの精度はモデルに依存し,正解数は6~8割程度であった.データセットの精度を向上させるために,生成されたキャプションを再度LLMで評価し,正解と不正解をつけることでデータの精錬を実施した.キャプションを生成したLLMで自己評価を行うと間違いを正解とする傾向が強かったが,OpenAIやGoogle,Anthropicの異なる企業のLLM間で相互チェックを行うことで生成したキャプションデータセットの精度が向上し,複数のLLMを使用した相互チェックの有効性が確認された.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード