[4Xin2-22] アクティブラーニングによる音声認識モデルのための効率的なデータアノテーション手法
キーワード:音声認識、アクティブラーニング、ヒューマンインザループ
End-to-Endの音声認識モデルは、高品質な学習データを使用することで、高い性能を発揮することが知られている。一方、高品質な学習データを作成するには一般的には人的コストや管理コストが大きくなる。 本研究は、音声認識モデルのための高品質な学習データを効率的にアノテーションするため、アクティブラーニングの手法を用いたデータ選択手法を提案する。音声波形から算出した特徴量を用いて構築した、文字誤り率(CER)予測モデルにより、データプールから優先的にアノテーションするデータを選択することを実現した。また、提案手法により構築した音声認識モデルは、ランダムにアノテーションした学習データと比較して優れたパフォーマンスを示し、提案手法が効率的な学習データの作成に寄与することを実証した。一方、ラベルの品質面から見た効率的なラベル付けは、アノテーターの心理的側面に影響し、コストや音声認識モデルの精度に良い影響を及ぼすことをあきらかにした。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。