[3Win5-38] 転移学習を用いたVideo Vision Transformerによる単語レベル手話認識
キーワード:手話、機械翻訳、転移学習、Video Vision Transformer、ViViT
聴覚障がい者と手話を習得していない健聴者とのリアルタイムな会話は困難である。聴覚障がい者の社会進出のためにも、手話の機械翻訳は重要である。手話の機械翻訳は、畳み込みニューラルネットワーク(CNN)が登場してから精度の向上が著しいが、これに代わる技術としてTransformerモデルの活用も模索されている。Transformerを動画認識用に拡張したVideo Vision Transformerでは、動画データを直接入力することが可能であるが、精度向上には入力データを前処理してから入力する必要がある。本研究では、動画データセットkinetics 400で事前学習したVideo Vision Transformerを転移学習し、有名な2つの手話データセット(LSA64, WLASL100)を用い、単語レベルでの手話認識精度の検証を行った。その結果、前処理を省いた上で従来研究と同精度の結果を得た。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。