Japan Association for Medical Informatics

[4-D-2-4] 文章ベクトル化における調整パラメーター値とカットオフ値の検討 - 看護観察記録を用いた誤嚥性肺炎発見手法において-

小牧 祥太郎1, 村永 文学2, 宇都 由美子3, 岩穴口 孝2,3, 熊本 一朗3 (1.鹿児島医療技術専門学校, 2.鹿児島大学病院 医療情報部, 3.鹿児島大学大学院医歯学総合研究科 医療システム情報学)

【背景・目的】 医療機関において誤嚥性肺炎の発症を予防する責務があるが、刻一刻と変化する患者状況において入院時の初回評価のみでは不十分である。今回、機械学習における文章ベクトル化手法を用いて発症が危惧される患者の早期発見に繋がる手法を検討した。【方法】 2011年に誤嚥性肺炎を発症した症例の看護観察記録を学習用データとして用いた。評価用データとして、2012年の誤嚥性肺炎症例の記録と、2011年、2012年における誤嚥性肺炎未発症例の記録を用いた。Python言語のGenSimライブラリのDoc2Vecを用いて、学習用データに対する評価用データのコサイン類似度より適合性を評価し予見可能か判定を行う。評価にあたり、Doc2VecのSize(以下、S)、Window(以下、W)、Min_count(以下、M)の適切なパラメーター値と、カットオフ値となるコサイン類似度の値について検証を行う。【結果】 学習用データは7例、評価用データにおいて誤嚥性肺炎症例が10例、誤嚥性肺炎未発症例が18例抽出された。統計学的に最も確実性の高い識別が行えたパラメーター条件は、①S=10,W=6,M=2②S=10,W=8,M=1③S=10,W=9,M=4の3パターンとなった。カットオフ値を0.9992と定めた場合、①感度90~100%、特異度33~39%②感度100%、特異度28%③感度50~80%、特異度61~67%であった。【考察・まとめ】 パラメーター条件として、Sizeは10が統計学的に最も確実性が高いと考えられたが、Window、Min_countは組み合わせ条件で変化が生じることが確認された。カットオフ値は、0.9991~0.9995付近が適切と考えられ、最終的にパラメーターの組み合わせ条件により最も適切な値を判定可能と考える。本手法は誤嚥性肺炎の早期発見への有効性が示唆された。今後、例数の増加により精度の向上に努め、他の疾患の発症予測へも応用したいと考える。