Filler Removal in End-to-End Conversion from Spoken Language to Written Language

Mari Matsufuji; Katsuhito Sudoh

[2Win5-40] Filler Removal in End-to-End Conversion from Spoken Language to Written Language

〇Mari Matsufuji¹, Katsuhito Sudoh¹ (1.Nara Women's University)

Keywords:Speech Recognition

近年、音声認識技術は議事録作成や録音の文字起こし、音声入力に活用されている。人間の自発的な発話にはフィラーや言い誤り、口語特有の表現が多く、これらは書き言葉として不適切である。話し言葉を可読性の高い文章に変換するためには、フィラーの除去とともに多くの編集が求められる。本研究では大規模音声次元学習モデルのOWSMを用いて、話し言葉から書き言葉を得ることを目的に、まずフィラーを除去した。日本語話し言葉コーパス(CSJ)を用いて、フィラー削除後の正答ファイルを作成し、事前学習モデルに対してfine-tuning（教師あり学習）を行った。実験の結果、このアプローチによりフィラーが除去された音声認識結果が得られることを確認した。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Presentation information

[2Win5] Poster session 2

[2Win5-40] Filler Removal in End-to-End Conversion from Spoken Language to Written Language

Password