Japan Association for Medical Informatics

[2-H-3-1] 音声対話システムと医療との接点

駒谷 和範 (大阪大学 産業科学研究所)

 近年,スマートフォン上のアプリや対話ロボット,スマートスピーカーなど,音声インタフェースを備えたシステムが一般家庭においても使われ始めている.深層学習の登場により音声認識の性能は更に向上しており,音声インタフェースへの期待は一層高まっているものの,音声インタフェースを実用的なシステムとするには,その特性や限界を知ったうえでの設計が必要となる.
 本講演では,まず音声対話システムや音声インタフェースの一般的な使用例について紹介した後,音声インタフェースが有効となる状況について議論する.さらには,音声対話システムや音声インタフェースの構成について述べ,近年の一問一答型システムの基本的な動作原理についても説明する.
 次に,音声インタフェースの主要な構成要素である音声認識処理について概説する.音声認識では,大きく分けて音響モデルと言語モデルの2つのモデルが用いられる.音響モデルは,各音素の周波数スペクトルのパターンを用いている.この周波数スペクトルのパターンがどのようにして現れるかを概説し,簡単な実演も交えながら説明する.さらに,言語モデルの必要性について説明し,この構成についても述べる.
 最後に,現在と今後の応用について議論する.音声インタフェースが利用されている状況について整理し,今後必要とされる可能性がある音声対話システムについても論じる.これらを通じて,現状の音声インタフェースや音声対話システム技術の現状や特性を踏まえたうえで,現状の技術と医療分野におけるニーズのマッチングを図り,新たなコラボレーションの芽や応用の創発を狙う.