2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4N1-GS-7] 画像音声メディア処理:

2025年5月30日(金) 09:00 〜 10:40 N会場 (会議室1009)

座長:早川 大智(東芝)

09:20 〜 09:40

[4N1-GS-7-02] 音声認識における多様性と不確実性に基づく効率的なデータサンプリング手法の提案

〇蛭田 興明1、山野 陽祐2、田森 秀明2 (1. 合同会社Solvance、2. 株式会社朝日新聞社)

キーワード:音声認識、データサンプリング

本研究では,画像データに対して有効とされている学習データ選択手法TypiClustを音声認識へ拡張し,その適用方法を提案する.音響的な多様性を考慮しつつ,書き起こしの不確実性が高いデータを優先的に学習することで,より少ないデータで効率的に音声認識モデルを学習することを意図している.具体的には,Wav2Vec2から得られた音声データの音響特徴量をクラスタリングし,クラスタごとに典型的かつ書き起こしの誤りが起こりやすいデータを優先的に選択する.日本語音声コーパスである CSJ および ReazonSpeech を対象とした実験では,ランダムなデータ選択や単一の基準に基づくデータ選択と比較して認識誤り率の改善を達成した.提案手法は,多様性と不確実性の両面を考慮したデータ選択により,ラベル付けコストを削減しつつ、音声認識モデルの性能が向上できることを示している.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード