JSAI2025

Presentation information

Poster Session

Poster session » Poster Session

[2Win5] Poster session 2

Wed. May 28, 2025 3:30 PM - 5:30 PM Room W (Event hall D-E)

[2Win5-40] Filler Removal in End-to-End Conversion from Spoken Language to Written Language

〇Mari Matsufuji1, Katsuhito Sudoh1 (1.Nara Women's University)

Keywords:Speech Recognition

近年、音声認識技術は議事録作成や録音の文字起こし、音声入力に活用されている。人間の自発的な発話にはフィラーや言い誤り、口語特有の表現が多く、これらは書き言葉として不適切である。話し言葉を可読性の高い文章に変換するためには、フィラーの除去とともに多くの編集が求められる。本研究では大規模音声次元学習モデルのOWSMを用いて、話し言葉から書き言葉を得ることを目的に、まずフィラーを除去した。日本語話し言葉コーパス(CSJ)を用いて、フィラー削除後の正答ファイルを作成し、事前学習モデルに対してfine-tuning(教師あり学習)を行った。実験の結果、このアプローチによりフィラーが除去された音声認識結果が得られることを確認した。

Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.

Password