2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4N2-GS-7] 画像音声メディア処理:

2025年5月30日(金) 12:00 〜 13:40 N会場 (会議室1009)

座長:金子 敏充(東芝)

13:00 〜 13:20

[4N2-GS-7-04] パーソナライズ画像生成における参照画像の複製効果の定量的評価と改善

〇大坂 洋豊1、鈴木 雅大1、松尾 豊1 (1. 東京大学)

キーワード:拡散モデル、パーソナライズ画像生成

パーソナライズ画像生成は,ユーザーが指定した特定の被写体を描写する画像を生成する技術として注目を集めている.近年は,その中でも,被写体ごとの追加学習を必要としないTuning-Free の手法が提案され,その効率性から主要な研究分野となっているが.これらの手法は参照画像をそのまま複製したような出力が得られる「複製効果」という問題が指摘されている.この複製効果は,生成画像の多様性を損ない,パーソナライズモデルの真価を十分に発揮する妨げとなっている.本研究では,この複製効果を客観的に評価するための定量的指標として,VLM を用いた新たな評価指標を提案する.さらに,複製効果を抑制するための追加学習手法として,新たな損失項を加えて学習させて実験を行い,既存のモデルの複製効果を抑制できることを示す.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード