[3-B-2-01] 電子カルテに記載されたテキストを対象とした機械学習による日単位での嘔気嘔吐症状の有無判定
Machine Learning, Natural Language Processing, Text Mining, Electronic Health Record
【1. 背景と目的】電子カルテには症状についての情報が数多く記載されているが,その多くは構造化されたデータとして記録されておらず,症状の有無を機械的に抽出する方法は確立されていない.そこで,今回我々は電子カルテに記載されたテキストを対象とし,機械学習の手法を用いて日単位での嘔気嘔吐症状の有無判定を試みた.
【2. 方法】当院の2015年10月の入院患者の電子カルテのデータより,医師記載,看護師記載,リハビリ等の実施記録,救急診療記録をテキストデータとして抽出した.10月1~24日のデータを学習データ,25~31日のデータをテストデータとし,患者ごとに1日単位で嘔気嘔吐症状のラベリングを行い,前処理として文の絞り込み,形態素解析,Bag of Wordsもしくは分散表現への変換等を行った上でナイーブベイズ,ロジスティック回帰,サポートベクトルマシン,勾配ブースティング木,ニューラルネットワークのアルゴリズムを用いて学習と評価を行った.
【3. 結果】学習データ10805日分のうち嘔気嘔吐ありとラベリングされたのは651日,テストデータ2951日分のうち嘔気嘔吐ありとラベリングされたのは179日であった.今回使用したアルゴリズムの中では勾配ブースティング木の結果が最も良い性能を示し,テストデータにおいてPrecision 0.87,Recall 0.73,F1 score 0.79であった.
【4. 考察と結論】機械学習による症状の有無判定の性能はテキストの記載様式による影響が大きく,テキストの絞り込みの方法が性能を大きく左右した.また,嘔気嘔吐は症状がない場合にも「嘔気はない」といった記載がなされることが多いが,word 5-gramを入力データとして使用することである程度の事実性の判定が可能となった.より大規模なデータでは,ニューラルネットワークが有望な選択肢となることが予想される.
【2. 方法】当院の2015年10月の入院患者の電子カルテのデータより,医師記載,看護師記載,リハビリ等の実施記録,救急診療記録をテキストデータとして抽出した.10月1~24日のデータを学習データ,25~31日のデータをテストデータとし,患者ごとに1日単位で嘔気嘔吐症状のラベリングを行い,前処理として文の絞り込み,形態素解析,Bag of Wordsもしくは分散表現への変換等を行った上でナイーブベイズ,ロジスティック回帰,サポートベクトルマシン,勾配ブースティング木,ニューラルネットワークのアルゴリズムを用いて学習と評価を行った.
【3. 結果】学習データ10805日分のうち嘔気嘔吐ありとラベリングされたのは651日,テストデータ2951日分のうち嘔気嘔吐ありとラベリングされたのは179日であった.今回使用したアルゴリズムの中では勾配ブースティング木の結果が最も良い性能を示し,テストデータにおいてPrecision 0.87,Recall 0.73,F1 score 0.79であった.
【4. 考察と結論】機械学習による症状の有無判定の性能はテキストの記載様式による影響が大きく,テキストの絞り込みの方法が性能を大きく左右した.また,嘔気嘔吐は症状がない場合にも「嘔気はない」といった記載がなされることが多いが,word 5-gramを入力データとして使用することである程度の事実性の判定が可能となった.より大規模なデータでは,ニューラルネットワークが有望な選択肢となることが予想される.