[3Rin4-04] End-to-End 学習を用いた音声からの表情アニメーション生成
キーワード:深層学習、表情アニメーション生成、エンターテイメント、音声
近年,VRゲームやVirtual YouTuberなどアバターを介したコミュニケーションが普及しつつある.このようなアバターを通じてユーザの心理状態を伝達させるために,特定の感情を示す表情をアバターに表出させる方法や,自身の表情や動作をアバターと同期させる方法がよく用いられている.代表的な表情同期手法としてFace Trackingが挙げられるが,表情を持たない収録済みの音声や合成音声から表情を作り出すことができない.そこで本研究では,音声のみを用いて表情アニメーションの自動生成を行うことを提案する.具体的には発話音声の音響的特徴量を入力とし,表情動画から解析されたAction Unitのパラメータを教師データとして学習モデルを設計する.評価として,既存手法(CNN)と提案手法(CNN-LSTM)のLoss値を比較した.実験の結果,提案手法のLoss値の方が既存手法よりも下がっていることを確認した.また,出力結果を時系列にグラフ化すると提案手法の方がより滑らかに推移していることも確認できた.このことは表情アニメーションにおいて自然な表情として知覚できることを示している.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。