[3-F-3-02] 電子カルテテキストから構築した症例マトリクスによる協調フィルタリングベースの類似症例予測
Discharge summary, Unstructured data, Case matrix, Similar Case Matching, EMR
【背景・目的】電子カルテのテキストデータは、患者の病歴や経過、アウトカムまでの情報が一貫して詳述されており、診療上極めて重要なデータリソースである。しかしながら、非構造化データのため取り扱いが難しくまだ十分に活用されていない。著者らは、電子カルテテキストの診療活用を目指し、退院サマリを用いて、症例ごとに主訴・病歴の出現単語を集計した構造化データ「症例マトリクス」の抽出手法を確立している。本研究では、この症例マトリクスを学習データとして、新たな退院サマリや経過記録テキストを入力として与え、類似症例を検出するフレームワーク構築を目的とした。
【方法】当院における循環器内科などの退院サマリ約10年分(17,000件程度)に対して、匿名化処理後、病名、主訴、既往歴などの情報を正規表現により抽出し、1症例1レコードの形式に構造化した。その後、辞書なしで単語分割可能な自然言語処理エンジンIRIS NLP (InterSystems社) を用いて、症例ごとに単語頻度集計を取ることで症例マトリクスを構築した。なお、表記揺れは、既存の辞書リソースである万病辞書や単語ベクトル化手法を行うことで集約を行なった。
【結果】新たな退院サマリに対して、症例マトリクス構築と同様に、単語頻度集計、表記揺れ集約を行い、症例ベクトル(症例マトリクスの1レコードに相当するデータ)を構築した。この症例ベクトルを入力とし、類似ベクトルを推論する手法「協調フィルタリング」を用いて、症例マトリクスから類似症例を検出するアルゴリズムを構築した。検出された症例には、同一病名の患者も含まれていた。また、同様にして、よりナラティブな文章である経過記録テキストにも適用することができた。
【結語】本研究により、電子カルテテキストを活用した類似症例検索の可能性が示唆された。今後、検査データなどとも組み合わせ、更なる精度向上を図っていきたい。
【方法】当院における循環器内科などの退院サマリ約10年分(17,000件程度)に対して、匿名化処理後、病名、主訴、既往歴などの情報を正規表現により抽出し、1症例1レコードの形式に構造化した。その後、辞書なしで単語分割可能な自然言語処理エンジンIRIS NLP (InterSystems社) を用いて、症例ごとに単語頻度集計を取ることで症例マトリクスを構築した。なお、表記揺れは、既存の辞書リソースである万病辞書や単語ベクトル化手法を行うことで集約を行なった。
【結果】新たな退院サマリに対して、症例マトリクス構築と同様に、単語頻度集計、表記揺れ集約を行い、症例ベクトル(症例マトリクスの1レコードに相当するデータ)を構築した。この症例ベクトルを入力とし、類似ベクトルを推論する手法「協調フィルタリング」を用いて、症例マトリクスから類似症例を検出するアルゴリズムを構築した。検出された症例には、同一病名の患者も含まれていた。また、同様にして、よりナラティブな文章である経過記録テキストにも適用することができた。
【結語】本研究により、電子カルテテキストを活用した類似症例検索の可能性が示唆された。今後、検査データなどとも組み合わせ、更なる精度向上を図っていきたい。