Japan Association for Medical Informatics

[3-J-3-04] 病理レポート及び放射線レポートのデータ構造化システム開発と評価

*Hokuto Morohoshi1, Akio Nakamura2, Hiroyuki Sato2, Jun Harada3, Takao Machitani3, Shinichiro Ikeda4, Yoshihiro Kimura4, Satoru Tokuda4, Michihiko Nakamura4, Tadahiro Goto3 (1. 昭和大学医学部衛生学公衆衛生学講座, 2. 昭和大学総合情報管理センター, 3. 株式会社TXP Medical, 4. 株式会社IQVIAソリューションズジャパン)

Natural Language Processing, Real world data, Structured data

【背景】医療データの利活用における制限の一つとして、標準化・構造化されていないデータがある。通常、放射線レポートや病理レポートは文章で記載されており、各症例の記録を、目視や手作業で確認しデータ収集することが行われ研究者の負担となっている。【目的】本研究では、固形癌の放射線・病理レポートを対象に、医療用語辞書を用いた表記揺れの吸収や構文解析・共参照構造解析といった自然言語処理技術によるデータ構造化システムの開発を目的とし、データ中の出現頻度や傾向・取得難度の高い項目の類型とその内容・現段階での評価を検討したので報告する。【方法】昭和大学病院・昭和大学横浜市北部病院・昭和大学江東豊洲病院から、20癌種を対象に放射線・病理レポート情報を抽出した。構造化の手法は、まず、がん取扱い規約をもとに1,259項目を網羅的に抽出した後に有用性を考慮し122項目を分析対象項目として選定し、次に、構文解析などを組み合わせたルールベースと大規模言語モデルを医療データでFine Tuningし構造化を行った。また、結果評価には、機械学習アルゴリズムの評価で用いられるF値を採用した。【結果】抽出された放射線レポート168,410件、病理レポート49,271件から、それぞれ18,780件と3,160 件の教師データを得て、構造化に取り組んだ。データが20件未満の場合は評価不可と判断し、分析対象項目の平均F値は0.64であった。【考察】放射線・病理レポートのデータ構造化には、出現頻度の低い項目の構造化および評価への対応策を検討する必要がある。本システムは、研究へのデータ利活用の促進だけでなく、レポートに記載された項目の充足率や記載漏れへのアラートといった臨床現場での活用も期待される。【結語】放射線・病理レポート中に含まれる項目ごとのデータ数及び構造化対象122項目の傾向に関して一定の知見を得た。