JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[4N2-GS-7] Vision, speech media processing:

Fri. May 30, 2025 12:00 PM - 1:40 PM Room N (Room 1009)

座長:金子 敏充(東芝)

12:40 PM - 1:00 PM

[4N2-GS-7-03] Estimation of Editing Regions for Image Manipulation via Sketches Using Machine Learning

〇Taketo Sasaki1, Ryohei Orihara1, Yasuyuki Tahara1, Akihiko Ohsuga1, Yuichi Sei1 (1. The University of Electro-Communications)

Keywords:Image Editing, Image Generation, Adversarial Training

近年、Stable Diffusionなどの拡散モデルによる画像生成・編集の研究が多数行われている。その中でもテキスト条件付き画像生成拡散モデルでは、プロンプトと呼ばれる文章を与えることでモデルに出力したい画像を指示する。しかし、目標の画像を得るためには、それを正確に表現する言語化能力が要求されるためプロンプトのみでの画像の編集は難しい。そこで本研究では、入力にスケッチを用いてより直感的な画像の編集を目指した。さらに、非編集領域の情報を可能な限り保持するために、編集領域推定モジュールを組み込むことでより高精度な編集を目指した。その結果、スケッチのみでも編集領域の推定の兆候は見られたが、完全な推定には至らず、生成器に拡散モデルを用いるための新たな課題が見つかった。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password