2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-6 言語メディア処理

[4N3-GS-6] 言語メディア処理:

2024年5月31日(金) 14:00 〜 15:40 N会場 (54会議室)

座長:田中涼太(NTT人間情報研究所)

15:20 〜 15:40

[4N3-GS-6-05] 拡散過程に基づくモデルによるトレースからユーザの意図を反映したキャプション生成への取り組み

〇平野 理子1、小林 一郎1 (1. お茶の水女子大学)

キーワード:拡散過程、キャプション生成

近年、拡散過程を用いた生成モデルは連続領域において最先端の性能を達成しており、離散データ生成においても盛んに研究が行われている。本研究は拡散言語モデルを使って制御可能な自然言語処理タスクの一つである画像キャプション生成に取り組んでおり、画像から得られる情報のみだけでなく、ユーザが画像をなぞった軌跡(トレース)から推定されるユーザの意図を反映した画像キャプショニング手法開発を目的としている。トレースの滞在時間からユーザのその物体に対する興味度合いを図り、ユーザそれぞれのトレース順に応じて画像内の物体を説明し、インタラクティブなキャプションの生成を実現する。実験から、提案手法は拡散過程に基づくことによって非自己回帰にトレースの順番に応じて画像内の物体を説明し、滞在時間に応じてトークン数を確保することでユーザの意図を生成文中に表現可能であることを確認した。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード