Japan Association for Medical Informatics

[4-F-3-03] 退院サマリデータ構造化に基づく合併症パターンの分析

野口 怜1、鳥飼 幸太1、齋藤 勇一郎1 (1. 群馬大学医学部附属病院 システム統合センター)

Unstructured data, Text mining, Complications, Discharge summary, EMR

【背景・目的】電子カルテのテキストデータは、患者に関する重要かつ一貫したデータを含み、利活用が大きく期待されているが、非構造化データのため取扱いが難しく活用が進んでいない。著者らは、退院サマリを対象として、1症例1レコード形式にデータを構造化した上で、主訴・既往歴の自由テキスト記述から循環器系・腫瘍系の疾患分類に繋がる特徴語抽出に成功している(第23回日本医療情報学会春季学術大会にて口頭発表)。当該研究は「主病名」に絞った分析であったが、本研究では、更なる疾患分類精度向上や、合併症発症予測への応用に向け、退院サマリ内に自由テキストで記述された合併症データから発症パターンを分析することを目的とした。

【方法】本院の電子カルテより、主に循環器内科、消化器・肝臓内科などで用いられている退院サマリ3年半分6,243件(2015/10/1~2019/3/31)を抽出し、正規表現によりデータを1症例1レコード形式に構造化した。合併症がある場合、「診断病名」欄に「1.疾患A、2.疾患B」のように自由テキストで併記されているが、病名を分割し、「主病名」=疾患A、「合併症①」=疾患Bのように列方向に構造化して分析容易な形式とした。これらデータに対して、項目間の共起性により関係性(ルール)を見つけ出す手法、アソシエーション分析を適用し、合併症パターンの分析を行った。

【結果】主病名が循環器系の疾患では、慢性腎不全→うっ血性心不全、高血圧症→虚血性心疾患などのルールが抽出され、合併症がない場合に比べ、各々1.8倍近くの発症率(リフト値)であった。一方、腫瘍系疾患の場合、C型肝硬変→肝細胞癌のルールが抽出され、C型肝硬変がない場合に比べ2倍程度の発症率であった。医学知見としても妥当性のある結果が得られ、本手法の有用性が示唆された。今後は主訴や既往歴の特徴語と組み合わせ、疾患分類への活用を行う予定である。