[3-C-3-04] 発話困難者の音声コミュニケーションを支援する音声認識技術
Automatic Speech Recognition, Organic Articulation Disorder, Deep Neural Networks
近年,スマートフォンやスマートスピーカーなど音声を用いた端末入力サービスが発表されている.これらのサービスでは,音声で機器を操作して天気予報や店情報を検索し,また家電操作などが可能であるが,明瞭な発話ができる人を対象としており,発話困難者には対応していない.発話困難者の発話音声の特徴は,その原因(舌切除,脳性麻痺など)によりさまざまであり,聞き取りが困難な発話も存在する.そのような方々の発話音声コミュニケーションを支援するための音声研究への期待は大きい.そこで本発表では,発話困難者として器質性構音障害者を対象とした音声認識技術について紹介する.
発話困難者の発話スタイル特性は一人一人多様なため,カスタマイズされた特定話者専用の音響モデル構築が必要となる.またそのモデル構築には大量の(特定話者)モデル学習用音声データが必要である.通常は当事者による原稿(テキスト)読み上げ音声を収録して,モデル学習用データ(音声+テキスト)として使用するが,当事者への負担などを考慮すると,原稿読み上げデータのみで十分な量の学習用データを集めるのは難しい場合がある.そのような学習データ量が少ない課題に対する解決策として,日常生活における自由発話音声を学習データとして活用することが考えられる.自由発話音声を音声認識の学習に使用するためには,音声に対応するテキスト書き起こしを手動で行う必要があるが,聞き取りが難しい発話困難者の音声を書き起こすことは難しい.そこで本発表では,器質性構音障害者の書き起こしテキストの無い音声データを活用した音声認識モデルの学習について報告する.
発話困難者の発話スタイル特性は一人一人多様なため,カスタマイズされた特定話者専用の音響モデル構築が必要となる.またそのモデル構築には大量の(特定話者)モデル学習用音声データが必要である.通常は当事者による原稿(テキスト)読み上げ音声を収録して,モデル学習用データ(音声+テキスト)として使用するが,当事者への負担などを考慮すると,原稿読み上げデータのみで十分な量の学習用データを集めるのは難しい場合がある.そのような学習データ量が少ない課題に対する解決策として,日常生活における自由発話音声を学習データとして活用することが考えられる.自由発話音声を音声認識の学習に使用するためには,音声に対応するテキスト書き起こしを手動で行う必要があるが,聞き取りが難しい発話困難者の音声を書き起こすことは難しい.そこで本発表では,器質性構音障害者の書き起こしテキストの無い音声データを活用した音声認識モデルの学習について報告する.