[2-H-2-05] 電子カルテの非構造化データを対象とした有害事象検出の試み
- 構造化データを対象とした手法との比較 -
Natural Language Processing, Data Mining, Electronic Health Records, Real-World Data, Drug-Related Side Effects and Adverse Reactions
[背景と目的]リアルワールドデータを活用した薬剤疫学解析が注目されているが,臨床現場で発生する多くの情報は構造化されていない.今回我々は,非構造化データである医師診療録を対象として,自然言語処理による有害事象(悪心嘔吐,下痢,好中球数減少)の検出を試みた.
[方法]当院で2011年から2018年の間に,消化管癌,胆膵腫瘍,乳癌,卵巣癌のいずれかに対し,化学療法を受けた300症例を無作為抽出した.形態素解析器MeCabによる単語分割を経て有害事象への該当性を確認するルールベースのプログラムを作成し,判定に用いた(NLP群).データセットはプログラム調整用45例と検証用255例に分割し,Gold Standardは医師3名による診療録確認に基づき決定した.構造化データ(病名,薬剤オーダ,検査値)を用いた手法を対照群として,成績を比較した.
[結果]特異度(NLP群85.2% : 対照群57.9%,p値0.01未満),陽性的中率(70.0% : 45.8%,p値0.01未満),診断精度(85.9% : 67.1%,p値0.01未満)は,NLP群が優れた.感度(87.5% : 90.3%,p値0.79),陰性的中率(94.5% : 93.8%,p値0.78)は,両群とも高かった.
[考察]構造化データは情報処理に適するが,データ品質に問題が生じる場合もある.例えば構造化データにはレセプト病名のように実際の病態と異なる情報が含まれる結果,対照群で偽陽性が目立ったが,診療録を対象とするNLP群では影響を受けなかった.一方,NLP群では使用する辞書の品質に影響を受け,偽陰性が増えた.診療録内では,専門用語に対して患者の訴えをそのまま記載した口語的表現等も多く,それらに対応できる類義語辞書が必要である.
[結語]診療録を対象とした自然言語処理による有害事象検出に成功した.今後は類義語辞書の拡充による精度向上に期待する.