2023年度 人工知能学会全国大会(第37回)

講演情報

一般セッション

一般セッション » GS-2 機械学習

[3D5-GS-2] 機械学習:深層学習Ⅲ

2023年6月8日(木) 15:30 〜 17:10 D会場 (大会議室 A1)

座長:宮川 大輝(NEC) [オンライン]

16:10 〜 16:30

[3D5-GS-2-03] 拡散モデルによる顔画像の再構成と動画圧縮への応用

〇井内 航1、梅田 悠哉1、原田 和亮1、柚木 隼人1、向井 皇喜1、吉田 舜1、山崎 俊彦1 (1. 東京大学)

キーワード:拡散モデル、動画圧縮、顔画像の再構成

情報技術の発展により、高容量の画像、動画の利用が一般的になった。ただしHDDなど記憶デバイスの容量や通信帯域は有限であり、圧縮の必要性はこれまでも議論されてきた。ルールベースの圧縮に加え近年ではGANなど深層学習ベースの圧縮手法も提案されている。既存のFaR-GANによれば、ある人物の顔画像と表情を表す68点の座標データからその表情を持つ顔画像が再構成でき、高い圧縮率を実現できる。
しかし、このような既存手法では再構成の精度、動画にした際のフレーム間の滑らかさに課題がある。本研究では拡散モデルを再帰的に用いて前のフレームからの再構成を行うことで、拡散モデルベースの顔画像の再構成における人物特定と表情生成のトレードオフを抑えつつ、フレーム間を滑らかに表現する手法を提案する。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード