一般社団法人 日本医療情報学会

[3-G-4-03] 機械学習による退院時要約からのDPC分類の推測

*木村 知広1、津本 周作2、平野 章二2 (1. 島根大学医学部医療サービス課, 2. 島根大学医学部医学科医療情報学)

Machine Learning, Discharge Summary, DPC


【目的】
退院時要約及び関連する診療情報にテキスト処理と機械学習の手法を適用,各症例のDPCを推定するシステムを開発する。システムによって正確な推定が行われれば,推定と実際のDPCとに相違がある場合に絞り,DPCコーディングに問題があるかを充分な時間で検討することが可能となる。
【方法】
キーワードとターゲットとの対応付けが弱く,分類精度がそれほど上がらないという,従来のテキストマイニングによる分類学習の問題に対して,本研究では,対応分析によるDPC毎のキーワード選定を行い,機械学習で用いられる手法を適用,キーワードによるDPCコーディングを行う分類器を構築した。
マイニングのプロセスとして,抽出した退院時要約に形態素解析を行い,キーワードの分割表を作成。次いで,対応分析を行い,各キーワードとDPCについて布置座標を与え,DPCとキーワード間のユークリッド距離を計算し,DPC毎に距離の値によってキーワードのランク付けを行う。それを用いて,文書内のキーワードの有無についての表形式のデータ集合を生成し,そのデータに対して分類学習手法(決定木,SVM,BNN,Random Forest,XGBoost,深層学習)を用いて分類器を構築する。その後,反復交差検証法により,分類の正答率を比較した。
【結果】
SVM,決定木,BNNが最大78%程度の正答率であるのに対し,深層学習が86%以上,Random Forest,XGBoostでは90%以上の正答率を示した。
【考察】
検証結果から,構築した分類器は高い正答率を示しており,診療文書の記載内容からテキストマイニングにより疾患の予測が可能となることが示唆された。この結果を踏まえて,退院時要約の記載内容からDPCコードが推定できるとすれば,退院患者に付与されたDPCコードが正しいかどうかチェックを行うなど,実際に診療支援に役立てることが可能となると考える。