10:40 〜 11:00
[4C1-GS-7-03] 3D CNN Transformer による手話認識
キーワード:手話認識、動画像処理、深層学習、Transformer、ジェスチャー認識
本研究では、アルゼンチンの孤立手話データセットLSA64に関する3種類のテストを行い孤立手話認識モデルの頑健性を包括的に検証した。孤立手話認識とは入力動画に手話が1つだけ含まれる手話認識であり、テストデータに含まれる話者が既知かどうかで話者依存手話認識と話者独立手話認識に分けられる。提案手法である3D CNN Transformerのハイパーパラメータについて、クロスバリデーションにより最適な3D CNNのカーネルサイズとTransformer Encoderのレイヤー数を探索した。実験の結果、話者依存テストで98.4%の正解率を、話者独立テストで94.4%の正解率を達成した。話者依存テストの認識精度は、3D CNN と ConvLSTM を用いた先行研究の認識精度 98.50 % と同等である。話者独立テストの認識精度は、RGBとオプティカルフローの両方を入力としてCNNとLSTMで分類した先行研究の認識精度94 %と同等以上である。これらの結果より、動画像処理である手話認識においてもTransformerがLSTMに置き換わる時系列処理モジュールとして有効であることが分かった。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。