[4Xin1-78] エッジデバイス搭載可能なAttention Moduleを用いた動的手話認識システム
キーワード:人工知能、手話認識、エッジ端末、画像認識、トランスフォーマー
近年では人工知能の活用として、Siriのような音声アシスタントが人々の生活に便利をもたらしている。しかし、話すことのできない聴覚障害者にはそれを使用することができず、課題となっている。その解決策として深層学習を使ったジェスチャー認識モデルが開発されている。しかし、先行研究では画像からジェスチャーを認識する研究や3D-CNNもしくはCNN+LSTMを使って動画からジェスチャーを認識する研究が多く、メモリ使用量が多い。これらの問題に着目し、本論文ではTransformerを使ったジェスチャー認識モデルDGT-STAを提案する。Attention moduleを使用することで浅層ニューラルネットワークで3D-CNNを超える精度に達成でき、他のAttention moduleを使用したモデルよりメモリ使用量を50.91%まで削減した。また、本論文ではモデルの学習を行うために日本手話のデータセットを作成し、DGT-STAの評価を行った。最後に、本論文ではIoT エッジ端末におけるDGT-STAの実装可能性を検証した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。