[PK-1-3] 機械学習のためのアルツハイマー病の音声特徴の分析
【背景】
アルツハイマー病(AD)は最も一般的な加齢に伴う変性疾患の一つであり,高齢化社会に直面しているわが国にとって間違いなく最大の関心事である.ADの音声については,Sattら(2013)が反復発話を用いてADの音声の特徴を分析し,健常高齢者の音声に比べて不規則であることを報告している.音声学的特性の研究は,国別の言語による分析が必要であるため,ADと健常高齢者の音声特性を比較する実験を行った.
【方法】
本研究ではAD患者と年齢をマッチさせた健常高齢者の2群を比較する症例対照デザインを用いた.認知症患者は北陸地方の病院から募集し,健常高齢者は東海地方の有料老人ホームで募集した.被験者の音声の録音はMMSEとHDS-Rの実施中に行い,被験者の音声部分のみを手動でセグメント分けを行った.音声の特徴に関しては,スペクトル,強度と基本周波数,さらに基本周波数と強度の微小時間変化量という音声特徴を抽出し解析を行った.いずれの音声特徴も重心,歪度および尖度,それぞれの平均と標準偏差などを調べた.音声特徴セットの全体サイズは合計で43パターンになった.これらの音声特徴は,PythonのLibROSAにて音声解析を,NumpyおよびSciPyにて統計処理を行った.次に,AD群と健常高齢者群とで違いが見られた音声特徴を対象に,3つの分類器(Logistic Regression; LR, Support Vector Machine; SVM, Random Forest; RF)により,それぞれの音声特徴を単一の説明変数とした場合のパフォーマンス評価を行った.これらすべてのモデルは,Pythonのscikit-learnライブラリを用いて計算した.用いる音声データセットは5分割交差検証により,各データセットで80%の音声データを学習とパラメータ調整のために使用し,残りの20%の音声データをパフォーマンス評価のために用いた.本研究は新潟医療福祉大学倫理委員会の承認を受け実施された(18762-211126).
【結果】
83名のAD患者と75名の健常高齢者のデータが解析に含まれた.両群間に年齢,性別の差はなかった.MMSEの平均値はAD患者が15.9±0.7,健常高齢者は28.1±0.3(p<0.001)であった.スペクトルは,すべての成分で2群間に有意差があった.強度については,標準偏差を除くすべての成分で両群間に有意差があった.パフォーマンス評価において正解率,F1スコアまたはAUCが高い値を示した音声特徴は,スペクトルの重心,歪度および尖度の平均と標準偏差であった.LRを用いたスペクトル尖度の標準偏差の5重クロスバリデーションの平均AUCはそれぞれ0.977±0.012(LR),0.971±0.015(SVM),0.952±0.016(RF)となり,LRまたはSVMによる分類器が最も高い性能を示した.
【考察】
本研究では,音声のスペクトル,強度,基本周波数に着目し,それらの特性を詳細に検討した結果,ADと健常高齢者間に優れた識別能力を示した.この結果はこれまでの研究とは異なるエビデンスであり,学術的にも新しい知見である.そのメカニズムは明らかではないが,スペクトルの尖度や歪度のSDにおいてADと健常高齢者の識別が容易であることから,ADでは音声生成に必要なエネルギーの分布を一定に保つことが難しく,偏りが生じていると考えられる.なお,音声の録音環境や方言によってバイアスが生じたことも否定できず,研究の限界であるととらえている.今後はデータを増やしながら,年齢,性別,ADの重症度などの要因を調整した上で今回得られたADの音声特徴を検証する予定である.
アルツハイマー病(AD)は最も一般的な加齢に伴う変性疾患の一つであり,高齢化社会に直面しているわが国にとって間違いなく最大の関心事である.ADの音声については,Sattら(2013)が反復発話を用いてADの音声の特徴を分析し,健常高齢者の音声に比べて不規則であることを報告している.音声学的特性の研究は,国別の言語による分析が必要であるため,ADと健常高齢者の音声特性を比較する実験を行った.
【方法】
本研究ではAD患者と年齢をマッチさせた健常高齢者の2群を比較する症例対照デザインを用いた.認知症患者は北陸地方の病院から募集し,健常高齢者は東海地方の有料老人ホームで募集した.被験者の音声の録音はMMSEとHDS-Rの実施中に行い,被験者の音声部分のみを手動でセグメント分けを行った.音声の特徴に関しては,スペクトル,強度と基本周波数,さらに基本周波数と強度の微小時間変化量という音声特徴を抽出し解析を行った.いずれの音声特徴も重心,歪度および尖度,それぞれの平均と標準偏差などを調べた.音声特徴セットの全体サイズは合計で43パターンになった.これらの音声特徴は,PythonのLibROSAにて音声解析を,NumpyおよびSciPyにて統計処理を行った.次に,AD群と健常高齢者群とで違いが見られた音声特徴を対象に,3つの分類器(Logistic Regression; LR, Support Vector Machine; SVM, Random Forest; RF)により,それぞれの音声特徴を単一の説明変数とした場合のパフォーマンス評価を行った.これらすべてのモデルは,Pythonのscikit-learnライブラリを用いて計算した.用いる音声データセットは5分割交差検証により,各データセットで80%の音声データを学習とパラメータ調整のために使用し,残りの20%の音声データをパフォーマンス評価のために用いた.本研究は新潟医療福祉大学倫理委員会の承認を受け実施された(18762-211126).
【結果】
83名のAD患者と75名の健常高齢者のデータが解析に含まれた.両群間に年齢,性別の差はなかった.MMSEの平均値はAD患者が15.9±0.7,健常高齢者は28.1±0.3(p<0.001)であった.スペクトルは,すべての成分で2群間に有意差があった.強度については,標準偏差を除くすべての成分で両群間に有意差があった.パフォーマンス評価において正解率,F1スコアまたはAUCが高い値を示した音声特徴は,スペクトルの重心,歪度および尖度の平均と標準偏差であった.LRを用いたスペクトル尖度の標準偏差の5重クロスバリデーションの平均AUCはそれぞれ0.977±0.012(LR),0.971±0.015(SVM),0.952±0.016(RF)となり,LRまたはSVMによる分類器が最も高い性能を示した.
【考察】
本研究では,音声のスペクトル,強度,基本周波数に着目し,それらの特性を詳細に検討した結果,ADと健常高齢者間に優れた識別能力を示した.この結果はこれまでの研究とは異なるエビデンスであり,学術的にも新しい知見である.そのメカニズムは明らかではないが,スペクトルの尖度や歪度のSDにおいてADと健常高齢者の識別が容易であることから,ADでは音声生成に必要なエネルギーの分布を一定に保つことが難しく,偏りが生じていると考えられる.なお,音声の録音環境や方言によってバイアスが生じたことも否定できず,研究の限界であるととらえている.今後はデータを増やしながら,年齢,性別,ADの重症度などの要因を調整した上で今回得られたADの音声特徴を検証する予定である.