JSAI2025

Presentation information

General Session

General Session » GS-7 Vision, speech media processing

[4N1-GS-7] Vision, speech media processing:

Fri. May 30, 2025 9:00 AM - 10:40 AM Room N (Room 1009)

座長:早川 大智(東芝)

9:20 AM - 9:40 AM

[4N1-GS-7-02] Efficient Data Sampling Strategy for Speech Recognition Based on Diversity and Uncertainty

〇Komei Hiruta1, Yosuke Yamano2, Hideaki Tamori2 (1. Solvance LLC, 2. The Asahi Shimbun Company )

Keywords:Speech Recognition, Data Sampling

本研究では,画像データに対して有効とされている学習データ選択手法TypiClustを音声認識へ拡張し,その適用方法を提案する.音響的な多様性を考慮しつつ,書き起こしの不確実性が高いデータを優先的に学習することで,より少ないデータで効率的に音声認識モデルを学習することを意図している.具体的には,Wav2Vec2から得られた音声データの音響特徴量をクラスタリングし,クラスタごとに典型的かつ書き起こしの誤りが起こりやすいデータを優先的に選択する.日本語音声コーパスである CSJ および ReazonSpeech を対象とした実験では,ランダムなデータ選択や単一の基準に基づくデータ選択と比較して認識誤り率の改善を達成した.提案手法は,多様性と不確実性の両面を考慮したデータ選択により,ラベル付けコストを削減しつつ、音声認識モデルの性能が向上できることを示している.

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password