2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[1O4-GS-7] 画像音声メディア処理

2023年6月6日(火) 15:00 〜 16:40 O会場 (会議室 E1+E2)

座長:渡辺 友樹(東芝) [現地]

16:00 〜 16:20

[1O4-GS-7-04] 顔画像編集におけるNaviGANに対する適切なGAN inversion手法の選定

〇北川 峻1、畠山 太郎1、蛭田 興明1、橋本 敦史2,1、栗原 聡1 (1. 慶應義塾大学、2. オムロン サイニックエックス株式会社)

キーワード:敵対的生成ネットワーク、画像編集、GAN Inversion手法、顔画像、深層生成モデル

本研究では,NaviGANとGAN Inversionを組み合わせることで実画像の分布外への編集を行う.NaviGANは通常学習データの分布内となる生成結果を分布外画像へ修正するGANの技術である.NaviGANを実画像に適用する場合,実画像をGANの潜在空間に埋め込むためにGAN Inversionが必要となる.本研究ではこの組み合わせにより,実在する顔画像に対して同一人物性を保持しつつ特定パーツの誇張を行うことを目標とする.目標達成の上でNaviGANと組み合わせるGAN Inversion手法として,様々な手法の中からファインチューニング型の手法が最適であることを明らかにした.よって,ファインチューニング型のGAN Inversion手法とNaviGANを組み合わせた画像編集手法を提案する.実験では,ファインチューニング型以外のGAN Inversion手法とNaviGANの組み合わせや,拡散モデル基盤の画像編集手法と比較し,提案手法が最も同一人物性を保持した特定パーツの誇張を実現していることを確認した.さらに,提案手法が実写顔画像だけでなく漫画顔画像に対しても適用可能であることを示した.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード