大規模言語モデルを用いた音声認識誤り訂正手法への文脈活用の有用性検証

竹井 達哉

14:40 〜 15:00

[4G3-GS-6-03] 大規模言語モデルを用いた音声認識誤り訂正手法への文脈活用の有用性検証

〇竹井達哉¹、古明地秀治¹、田中聡久¹ (1. 東京農工大学)

キーワード：音声認識誤り訂正、大規模言語モデル

誤りを含む日本語音声認識結果に対し, 訂正対象の文章と前後の文脈情報も併せて大規模言語モデルに与えた上で, 当該モデルによりZero-shotで誤り訂正を行う手法を提案する. 自然な言語生成能力と豊富な語彙を持つ大規模言語モデルに対して文脈情報も併せて与えることにより, 誤りを多く含むような訂正が困難な音声認識結果に対しても文脈に沿った適切な誤り訂正が行われることを狙いとする. 精度検証の結果, 対象とした全てのモデル及び実験設定において, 文脈考慮無しの条件に比べ, BLEU, BERT Scoreが同等あるいは改善した. 特にWERが20%を超えるような文章においては, Whisper出力時から全てのモデルでWERが3pt以上減少し, さらに10pt以上減少するモデルも存在した. 一方で, 低いWERの文章においては訂正前の認識結果に比べてWERが悪化するケースが目立った. これらは大規模言語モデルの過剰訂正や入力テキストが既に高精度な場合に発生する不要な書き換えが影響していると推測される.

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[4G3-GS-6] 言語メディア処理：

[4G3-GS-6-03] 大規模言語モデルを用いた音声認識誤り訂正手法への文脈活用の有用性検証

パスワード