2018年度人工知能学会全国大会(第32回)

講演情報

口頭発表

一般セッション » [一般セッション] 10.画像・音声

[2N1] 画像・音声-音声システム

2018年6月6日(水) 09:00 〜 10:20 N会場 (2F 桜島)

座長:辻川 剛範(NEC)

09:40 〜 10:00

[2N1-03] 音声対話システムのためのユーザの発話権維持状態の逐次推定

〇藤江 真也1,2、横山 勝矢2、小林 哲則2 (1. 千葉工業大学、2. 早稲田大学)

キーワード:音声対話システム、ターンテイキング、音声認識

音声対話システムの発話タイミングを適切に決定するために,ユーザの発話状態を逐次推定する手法を提案する.従来の手法は,無音で区切られた音声区間に対して,そこから得られる韻律情報を特徴量とし,発話の継続/終了を推定するものが多い.この方法では,判断が音声区間の区切れ目に限定されることや,韻律情報の計算による処理の遅れといった問題がある.そこで提案手法では,音声スペクトログラムを復元する自己符号化器から得られる音響特徴と,音声認識器の途中結果から得られる言語特徴を用いて,ユーザの発話権に対する状態を逐次推定する.本発表では,音声対話コーパスに対する提案手法による推定例を示し,有効性を確認する.