Continuous Representation of Confusion Networks for Neural Spoken Utterance Classification robust to Automatic Speech Recognition Errors

Ryo Masumura

4:50 PM - 5:10 PM

[3G2-04] Continuous Representation of Confusion Networks for Neural Spoken Utterance Classification robust to Automatic Speech Recognition Errors

〇Ryo Masumura¹, Yusuke Ijima¹, Taichi Asami¹, Hirokazu Masataki¹, Ryuichiro Higashinaka¹ (1. NTT Corporation)

Keywords:Spoken utterance classification

本稿では，音声認識誤りに頑健な発話意図推定を目指して，音声認識時の複数仮説表現であるコンフュージョンネットワークを直接ニューラルネットワークの枠組みで扱うことが可能なモデル化手法を提案する．提案手法のポイントは，コンフュージョンネットワークを連続表現に変換することであり，その際に注意機構を利用した修正重み付き和表現を用いることで，仮説内の単語の重要性と音声認識時の信頼度を両者を考慮した上で全体最適化を実現する．実験から，提案手法はn-best を用いる方法よりも声認識誤りに頑健に動作することを示す．

Presentation information

[3G2] [General Session] 9. NLP / IR

[3G2-04] Continuous Representation of Confusion Networks for Neural Spoken Utterance Classification robust to Automatic Speech Recognition Errors