[4-D-1-1] 非構造化テキストデータの活用によるPhenotypingの精度向上
【はじめに】平成30年度より本格稼働したMID-NET事業において、副作用調査としての正確な病態抽出は重要である。我々は、病院情報システム(HIS)のデータから一定の精度を担保するPhenotyping手法の開発を進めている。伊豆倉ら(2018 JAMI春季)は、HISの患者属性、医薬品、検査結果などの構造化データを用いて間質性肺炎(以下IP)のPhenotyping手法を開発した。具体的には「初期ルール」で広めに抽出した症例からランダムサンプリングし、専門医レビューで真偽判定した後、目的変数を真症例、説明変数を構造化データとして、勾配ブースティング(GBDT)とrpartによるAUC=0.798の「抽出ルール」を策定した。次に、初期ルール以外の真症例をCTレポートテキスト検索で抽出し、この真症例を構造化データGBDTで予測したが、AUCは0.582と低く追加抽出するルール策定ができなかった。本研究では、非構造化テキストデータからの真症例抽出ルール策定を目的とした。【方法】当院の全入外患者117,401名(2014年~2015年)のCTレポートから、IP症例を推定する8キーワードが含まれる5,141名を抽出した。それから100名をランダムサンプリングし、先行研究の初期ルールに含まれない84名を選定した。専門医レビューでの真症例は39名であった。84名のCTレポートテキストに対して形態素解析を行い、987の変数を抽出した。目的変数を真症例、説明変数を①先行研究+テキスト、②テキストとして、GBDTで予測した。【結果・考察】AUCは①0.653、②0.732であり、②の方が改善された。今回の対象84名にはIP診断が付いておらず、IPに関連する処方や検査が少ないことで、②の方が良いモデルとなりAUCが改善したことが考えられる。また変数重要度から、①で特定できなかったIPに関連するワードが②では上位に現れた。非構造化テキストデータ解析による真症例の抽出精度を向上することができた。