JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[4N2-GS-7] Vision, speech media processing:

Fri. May 30, 2025 12:00 PM - 1:40 PM Room N (Room 1009)

座長:金子 敏充(東芝)

1:00 PM - 1:20 PM

[4N2-GS-7-04] Improving Reference Image Replication for Tuning-Free Personalized Image Generation

〇Hiroto Osaka1, Masahiro Suzuki1, Yutaka Matsuo1 (1. The University of Tokyo)

Keywords:Diffusion Model, Personalized Image Genaration

パーソナライズ画像生成は,ユーザーが指定した特定の被写体を描写する画像を生成する技術として注目を集めている.近年は,その中でも,被写体ごとの追加学習を必要としないTuning-Free の手法が提案され,その効率性から主要な研究分野となっているが.これらの手法は参照画像をそのまま複製したような出力が得られる「複製効果」という問題が指摘されている.この複製効果は,生成画像の多様性を損ない,パーソナライズモデルの真価を十分に発揮する妨げとなっている.本研究では,この複製効果を客観的に評価するための定量的指標として,VLM を用いた新たな評価指標を提案する.さらに,複製効果を抑制するための追加学習手法として,新たな損失項を加えて学習させて実験を行い,既存のモデルの複製効果を抑制できることを示す.

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password