非構造化テキストデータの活用によるPhenotypingの精度向上

山下 貴範

[4-D-1-1] 非構造化テキストデータの活用によるPhenotypingの精度向上

^○山下貴範¹, 伊豆倉理江子¹, 野原康伸¹, 野尻千夏², 高田敦史¹, 中島直樹¹ (1.九州大学病院　メディカル・インフォメーションセンター, 2.株式会社　ケア・フォー)

【はじめに】平成30年度より本格稼働したMID-NET事業において、副作用調査としての正確な病態抽出は重要である。我々は、病院情報システム（HIS）のデータから一定の精度を担保するPhenotyping手法の開発を進めている。伊豆倉ら（2018 JAMI春季）は、HISの患者属性、医薬品、検査結果などの構造化データを用いて間質性肺炎（以下IP）のPhenotyping手法を開発した。具体的には「初期ルール」で広めに抽出した症例からランダムサンプリングし、専門医レビューで真偽判定した後、目的変数を真症例、説明変数を構造化データとして、勾配ブースティング（GBDT）とrpartによるAUC=0.798の「抽出ルール」を策定した。次に、初期ルール以外の真症例をCTレポートテキスト検索で抽出し、この真症例を構造化データGBDTで予測したが、AUCは0.582と低く追加抽出するルール策定ができなかった。本研究では、非構造化テキストデータからの真症例抽出ルール策定を目的とした。【方法】当院の全入外患者117,401名（2014年～2015年）のCTレポートから、IP症例を推定する8キーワードが含まれる5,141名を抽出した。それから100名をランダムサンプリングし、先行研究の初期ルールに含まれない84名を選定した。専門医レビューでの真症例は39名であった。84名のCTレポートテキストに対して形態素解析を行い、987の変数を抽出した。目的変数を真症例、説明変数を①先行研究＋テキスト、②テキストとして、GBDTで予測した。【結果・考察】AUCは①0.653、②0.732であり、②の方が改善された。今回の対象84名にはIP診断が付いておらず、IPに関連する処方や検査が少ないことで、②の方が良いモデルとなりAUCが改善したことが考えられる。また変数重要度から、①で特定できなかったIPに関連するワードが②では上位に現れた。非構造化テキストデータ解析による真症例の抽出精度を向上することができた。

The 38th Joint Conference on Medical Informatics

[4-D-1-1] 非構造化テキストデータの活用によるPhenotypingの精度向上