[2-P2-1-05] 機械学習による退院時サマリからのDPC分類の推測
Text mining, Random Forest, Deep Learning, Discharge Summary
【背景】診療情報はビッグデータとして蓄積され、統計手法を用いて新たな知識を発見し,診療等に役立てることが可能となってきている。しかし,その多くは入力・保存や統計処理が容易な数値、画像データが対象で,カルテ記録などの診療文書は見過ごされてきた。
【目的】診療文書を対象とした分析法を確立することは,医療の質向上に大きく寄与すると考える。退院時サマリから疾患別の重要語を抽出し,これを元にサマリ文章から疾患名を特定できるか検討した。
【方法】キーワードとターゲットとの対応付けが弱く,分類精度がそれほど上がらないという,従来のテキストマイニングによる分類学習の問題に対して,本研究では,対応分析によるDPC毎のキーワード選定を行い,機械学習で用いられる手法を適用,キーワードによるDPCコーディングを行う分類器を構築した。
マイニングのプロセスとして,抽出した退院時サマリに形態素解析を行い,キーワードの分割表を作成。次いで,対応分析を行い,各キーワードとDPCについて布置座標を与え,DPCとキーワード間のユークリッド距離を計算し,DPC毎に距離の値によってキーワードのランク付けを行う。それを用いて,文書内のキーワードの有無についての表形式のデータ集合を生成し,決定木などの分類学習手法を用いて分類器を構築する。その後、反復交差検証法により,分類の正答率を比較した。
【結果】検証結果から,SVM,決定木が最大78%程度の正答率であるのに対し,深層学習が86%以上,Random Forestでは90%以上の正答率を示した。
【考察】高い正答率を示しており,テキストマイニングによる診療文書内容からの疾患の特定・分類などの可能性が示唆された。この結果を踏まえて,退院時サマリの記載内容からDPCコードが推定できるとすれば,実際に退院患者に付与されたDPCコードが正しいかチェックを行うなど応用が可能と考える。
【目的】診療文書を対象とした分析法を確立することは,医療の質向上に大きく寄与すると考える。退院時サマリから疾患別の重要語を抽出し,これを元にサマリ文章から疾患名を特定できるか検討した。
【方法】キーワードとターゲットとの対応付けが弱く,分類精度がそれほど上がらないという,従来のテキストマイニングによる分類学習の問題に対して,本研究では,対応分析によるDPC毎のキーワード選定を行い,機械学習で用いられる手法を適用,キーワードによるDPCコーディングを行う分類器を構築した。
マイニングのプロセスとして,抽出した退院時サマリに形態素解析を行い,キーワードの分割表を作成。次いで,対応分析を行い,各キーワードとDPCについて布置座標を与え,DPCとキーワード間のユークリッド距離を計算し,DPC毎に距離の値によってキーワードのランク付けを行う。それを用いて,文書内のキーワードの有無についての表形式のデータ集合を生成し,決定木などの分類学習手法を用いて分類器を構築する。その後、反復交差検証法により,分類の正答率を比較した。
【結果】検証結果から,SVM,決定木が最大78%程度の正答率であるのに対し,深層学習が86%以上,Random Forestでは90%以上の正答率を示した。
【考察】高い正答率を示しており,テキストマイニングによる診療文書内容からの疾患の特定・分類などの可能性が示唆された。この結果を踏まえて,退院時サマリの記載内容からDPCコードが推定できるとすれば,実際に退院患者に付与されたDPCコードが正しいかチェックを行うなど応用が可能と考える。