発話困難者の音声コミュニケーションを支援する音声認識技術

滝口 哲也

[3-C-3-04] 発話困難者の音声コミュニケーションを支援する音声認識技術

*滝口哲也¹、北条直樹¹、高島遼一¹、杉山千尋²、田中信和²、野原幹司²、野崎一徳² (1. 神戸大学大学院システム情報学研究科、2. 大阪大学歯学部附属病院)

Automatic Speech Recognition, Organic Articulation Disorder, Deep Neural Networks

近年，スマートフォンやスマートスピーカーなど音声を用いた端末入力サービスが発表されている．これらのサービスでは，音声で機器を操作して天気予報や店情報を検索し，また家電操作などが可能であるが，明瞭な発話ができる人を対象としており，発話困難者には対応していない．発話困難者の発話音声の特徴は，その原因（舌切除，脳性麻痺など）によりさまざまであり，聞き取りが困難な発話も存在する．そのような方々の発話音声コミュニケーションを支援するための音声研究への期待は大きい．そこで本発表では，発話困難者として器質性構音障害者を対象とした音声認識技術について紹介する．
　発話困難者の発話スタイル特性は一人一人多様なため，カスタマイズされた特定話者専用の音響モデル構築が必要となる．またそのモデル構築には大量の（特定話者）モデル学習用音声データが必要である．通常は当事者による原稿（テキスト）読み上げ音声を収録して，モデル学習用データ（音声＋テキスト）として使用するが，当事者への負担などを考慮すると，原稿読み上げデータのみで十分な量の学習用データを集めるのは難しい場合がある．そのような学習データ量が少ない課題に対する解決策として，日常生活における自由発話音声を学習データとして活用することが考えられる．自由発話音声を音声認識の学習に使用するためには，音声に対応するテキスト書き起こしを手動で行う必要があるが，聞き取りが難しい発話困難者の音声を書き起こすことは難しい．そこで本発表では，器質性構音障害者の書き起こしテキストの無い音声データを活用した音声認識モデルの学習について報告する．

第43回医療情報学連合大会（第24回日本医療情報学会学術大会）

[3-C-3-04] 発話困難者の音声コミュニケーションを支援する音声認識技術