14:40 〜 15:00
[2G3-GS-2e-05] GPT-2を用いた人の動作予測
キーワード:GPT-2、動作予測、Transformer、言語モデル、VQ-VAE
近年,GPT-2やBERTなどの言語モデルにより,言語理解タスクや言語生成の性能が向上している.これらの言語モデルは,言語だけでなく,画像や音などの非言語データにも応用可能なことが示され始めている.非言語データを扱う言語モデルでは,画像や音などの連続的なデータをVector Quantized Variational AutoEncoder(VQ-VAE)により離散化することで,言語データと同様に扱うことを可能にしている.この離散化と言語モデルによる系列の学習は,画像や音以外にも様々なモーダルのデータに適応可能な手法だと考えられる.本研究の目的は,人の動作データに対して,VQ-VAEとGPT-2を用いたモデル化について検証することである.実験では,CMU-mocapと3DPWの動作データを用いて,VQ-VAEとGPT-2の学習をした.学習したモデルを用いて,現在の数フレームの動作入力から将来の動作予測を行いモデルを検証した.
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。