2025年度 人工知能学会全国大会(第39回)

講演情報

一般セッション

一般セッション » GS-7 画像音声メディア処理

[4N3-GS-7] 画像音声メディア処理:

2025年5月30日(金) 14:00 〜 15:40 N会場 (会議室1009)

座長:品川 政太朗(SB Intuitions)

14:00 〜 14:20

[4N3-GS-7-01] N-best 仮説音声認識と大規模言語モデルを組み合わせた日本語音声認識の誤り訂正

〇藤井 健悟1、園山 将士1、髙橋 威知郎1 (1. コニカミノルタ株式会社)

キーワード:音声認識、誤り補正、大規模言語モデル

音声認識を用いたサービスを展開している弊社では、音声認識の精度がサービス展開において必要不可欠である。音声認識の結果を補正する手法は数多くあるが、その中でも本研究では、音声認識モデルから得たN-best 仮説と大規模言語モデルを用いて、N-best仮説の結果に対してスコアリングを行い、日本語に対しての音声認識結果の補正を行った。スコアリングを行うことでWER, CERともに改善を確認できた。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

パスワード