Japan Association for Medical Informatics

[2-G-1-OP5-3] 誤嚥性肺炎予防の為の、観察記録解析における文章ベクトル化技法の有用性の検討

小牧 祥太郎1,3, 村永 文学2, 岩穴口 孝2, 宇都 由美子3, 熊本 一朗3 (1.鹿児島医療技術専門学校, 2.鹿児島大学病院 医療情報部, 3.鹿児島大学大学院医歯学総合研究科医療システム情報学)

【背景及び目的】
 医療機関においては誤嚥性肺炎の予防が求められ、入院時スクリーニング等で初回評価を行っている。しかし、患者状況は刻一刻と変化し、初回評価で問題とならない患者の発症も懸念される。我々は以前、テキストマイニング技法のTF-IDFを用いて看護師の観察記録の解析より、発症が危惧される患者の特徴的な語彙の抽出が行えたがそれに留まっている。今回、観察記録文章を数値ベクトル化する手法を用いて、入院患者の誤嚥性肺炎を予防する為の方法と、その有用性について検討を行った。
【方法】
 2011年から2012年に鹿児島大学病院に入院した患者より、誤嚥性肺炎を発症した症例(誤嚥性肺炎群)22例と、対照として未発症の症例(非誤嚥性肺炎群)22例を抽出。双方の群それぞれ、機械学習用データ17例と評価用データ5例に分割した。その後、MeCabを用いて観察記録の形態素解析を実施(誤嚥性肺炎群については、発症日までの記録を使用)。gensimライブラリのDoc2vecを用いて機械学習用データに各評価用データを1例ずつ追加し、評価用データのコサイン類似度の算出を行った。また、解析にあたりベクトル次元数、window幅等のパラメータも変更し適切な値の検証を行う。
【結果】
 機械学習用データに誤嚥性肺炎評価用データを適用した結果、誤嚥性肺炎群では0.95以上、非誤嚥性肺炎群では0.95以下のコサイン類似度を示し、その値を閾値としたフィッシャーの正確確率検定において有意に識別が行えた(p<0.01)。また、パラメータの検証において、ベクトル数を抑えwindow幅を広げた場合に誤嚥性肺炎症例と非誤嚥性肺炎症例のコサイン類似度の乖離幅が増大した。
【考察】
 Doc2vecは近年注目されているディープラーニングと同様、ニューラルネットワークを使用し高速に文章ベクトルを算出する。TF-IDFは特徴的な語彙抽出に留まり、文章全体を評価する場合は主観的な部分が介在するが、コサイン類似度による識別は文章全体の定量的で客観的な評価が可能である。