[3-I-2-07] 電子カルテのテキストデータを活用した医学知識と機械学習の融合による説明性の高い類似症例予測の手法構築
Electronic medical record, Natural language processing, Case Matrix, Domain knowledge, Similar case matching
【背景・目的】 電子カルテのテキストデータは、患者情報が一貫して詳述され診療上極めて重要なデータリソースであるが、取り扱いが難しく、未だ十分に活用されていない。著者らは、退院サマリデータを用いて、症例ごとに主訴・病歴の出現単語を集計した構造化データ「症例マトリクス」を抽出する手法を確立している。しかしながら、症例マトリクスは、出現単語の豊富さから、超高次元の構造になりやすく、多くのノイズ単語を含む点が課題であった。 そこで、本研究では、医学知識と機械学習技術を組み合わせることで、疾患特異的な特徴語を選択するとともに、新たな退院サマリや経過記録テキストに含まれる特徴語群と比較することで、判断根拠が提示可能な説明性の高い類似症例予測フレームワークの構築を目指した。
【方法】 当院における循環器内科などの退院サマリ約10年分(17,000件程度)に対して、匿名化処理後、病名、主訴、既往歴などの情報を正規表現により抽出し、1症例1レコードの形式に構造化した。その後、単語分割処理を行い、症例ごとに単語頻度集計を取ることで症例マトリクスを構築した。また、医学知識として、循環器疾患に関する診療ガイドラインを活用し、同様に単語頻度集計をと取ることで、各疾患についての重要な用語を抽出した。
【結果】 症例マトリクスに対して、主病名を目的変数としたLasso回帰を適用することで、約3,000次元あった単語から、主病名に関わる本質的な特徴語100語程度を抽出することができた。さらに、医学知識に基づいて当該疾患に関する重要単語については重み付けを行い、協調フィルタリングにより類似症例を検出するフレームワークを構築した。医学知識の組み入れにより、類似症例検出精度の向上が見られた。
【結語】 本研究の類似症例手法の可能性が示唆された。今後は、検査データなども組み合わせ、更なる精度向上を図る予定である。
【方法】 当院における循環器内科などの退院サマリ約10年分(17,000件程度)に対して、匿名化処理後、病名、主訴、既往歴などの情報を正規表現により抽出し、1症例1レコードの形式に構造化した。その後、単語分割処理を行い、症例ごとに単語頻度集計を取ることで症例マトリクスを構築した。また、医学知識として、循環器疾患に関する診療ガイドラインを活用し、同様に単語頻度集計をと取ることで、各疾患についての重要な用語を抽出した。
【結果】 症例マトリクスに対して、主病名を目的変数としたLasso回帰を適用することで、約3,000次元あった単語から、主病名に関わる本質的な特徴語100語程度を抽出することができた。さらに、医学知識に基づいて当該疾患に関する重要単語については重み付けを行い、協調フィルタリングにより類似症例を検出するフレームワークを構築した。医学知識の組み入れにより、類似症例検出精度の向上が見られた。
【結語】 本研究の類似症例手法の可能性が示唆された。今後は、検査データなども組み合わせ、更なる精度向上を図る予定である。