2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4N2-GS-7] 画像音声メディア処理:

2025年5月30日(金) 12:00 〜 13:40 N会場 (会議室1009)

座長:金子 敏充(東芝)

12:40 〜 13:00

[4N2-GS-7-03] 機械学習によるスケッチでの画像編集のための編集領域の推定

〇佐々木 嵩仁1、折原 良平1、田原 康之1、大須賀 昭彦1、清 雄一1 (1. 電気通信大学大学院)

キーワード:画像編集、画像生成、敵対的学習

近年、Stable Diffusionなどの拡散モデルによる画像生成・編集の研究が多数行われている。その中でもテキスト条件付き画像生成拡散モデルでは、プロンプトと呼ばれる文章を与えることでモデルに出力したい画像を指示する。しかし、目標の画像を得るためには、それを正確に表現する言語化能力が要求されるためプロンプトのみでの画像の編集は難しい。そこで本研究では、入力にスケッチを用いてより直感的な画像の編集を目指した。さらに、非編集領域の情報を可能な限り保持するために、編集領域推定モジュールを組み込むことでより高精度な編集を目指した。その結果、スケッチのみでも編集領域の推定の兆候は見られたが、完全な推定には至らず、生成器に拡散モデルを用いるための新たな課題が見つかった。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード