[3-F-2-03] 電子カルテ自然文からの疾患レジストリデータ抽出における大規模言語モデルの有効性評価
Disease Registry Automation, Clinical Data Extraction, Large Language Model
【目的】疾患レジストリへの登録に際し、電子カルテに自然文で記載されている情報は目視確認および手入力が必要であり、登録業務が負担となっている。本研究では、自然言語処理技術を活用し、自然文から疾患レジストリの登録項目に対応する値を自動抽出することで、登録業務を効率化することを目的とする。【方法】症例登録等への活用を念頭に、乳癌、胃癌、大腸癌手術症例に対する電子カルテの病理報告(臨床情報、病理診断、病理所見)から癌取り扱い規約に基づいた項目(乳癌24、胃癌26、大腸癌32)を選定した。症例数は乳癌410、胃癌138、大腸癌214件であり、全件、目視にて項目抽出を行い正解ラベルとした。Llama3 70B Instructモデル(4bit)を用い、院内のNVIDIA A100搭載計算機を使用して、癌腫ごとに、取扱い規約に従いデータ抽出するプロンプトによりデータ抽出を行った。項目のうち静脈侵襲、リンパ管侵襲、癌断端、浸潤増殖様式は具体的な抽出様式を指示した。抽出結果を正規化して正解ラベルと比較し、項目ごとに適合率、再現率、F値を算出した。【結果】抽出様式を指示した項目では、F値が乳癌0.89~0.95、胃癌0.81~0.94、大腸癌0.74~0.92と高精度でのデータ抽出を実現できた。同じ項目で抽出様式を指示しない場合は、F値が乳癌0.083~0.37、胃癌~0.045、大腸癌~0.01(胃癌・大腸癌は適合率・再現率が0でF値が計算不能な項目あり)であった。他の抽出様式を指示しない項目も低精度となった。【考察・結論】院内計算機で実行可能な大規模言語モデルを用い、抽出様式を具体的に指示することで、自然文からの高精度なデータ抽出が可能なことが示唆された。これにより、医師の登録業務の負担軽減と、データ入力の効率化が期待される。【倫理的配慮】当院倫理審査委員会承認済(H2021-086-3)
