[2Win5-40] 話し言葉から書き言葉へのEnd-to-End変換においてのフィラー削除
キーワード:音声認識
近年、音声認識技術は議事録作成や録音の文字起こし、音声入力に活用されている。人間の自発的な発話にはフィラーや言い誤り、口語特有の表現が多く、これらは書き言葉として不適切である。話し言葉を可読性の高い文章に変換するためには、フィラーの除去とともに多くの編集が求められる。本研究では大規模音声次元学習モデルのOWSMを用いて、話し言葉から書き言葉を得ることを目的に、まずフィラーを除去した。日本語話し言葉コーパス(CSJ)を用いて、フィラー削除後の正答ファイルを作成し、事前学習モデルに対してfine-tuning(教師あり学習)を行った。実験の結果、このアプローチによりフィラーが除去された音声認識結果が得られることを確認した。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。