2024年度 人工知能学会全国大会(第38回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4I1-GS-7] 画像音声メディア処理:

2024年5月31日(金) 09:00 〜 10:40 I会場 (41会議室)

座長:石川 開(日本電気株式会社)[[オンライン]]

10:00 〜 10:20

[4I1-GS-7-04] 拡散モデルの初期値最適化による画像編集

〇橋野 真1、松原 崇1 (1. 大阪大学)

キーワード:拡散モデル、画像編集

拡散モデルなどの深層生成モデルは,テキストから高精度な画像を生成することを可能にしているが,テキストによって画像の一部分を所望の内容に変更させる画像編集も重要なタスクとなっている.拡散モデルを用いた画像編集は,入力画像に対応する初期ノイズへと変換するinversionを行い,その後テキストによる条件付けで編集画像を生成するというのが主な手順である.だが,これでは意図しない部分まで変化してしまうことが知られている.既存手法では,初期ノイズから画像生成を行う過程の途中に操作を加えることで所望の内容のみ編集することを可能にしている.しかし,生成過程の途中に操作を加えることによって,不自然な画像を生成してしまうケースも見受けられる.この課題を解決するため本研究では,生成過程の初期ノイズを編集対象のものへ最適化することを提案した.具体的には,初期ノイズにおいて入力画像の単語に反応していた部分を編集対象の単語に反応させるように最適化させ,その後事前訓練済みの画像生成モデルによって編集画像を生成させるという手法である.この手法によって,既存手法と比較し,より自然な編集画像が生成されることを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード