Japan Association for Medical Informatics

[4-H-1-01] 症例報告書の作成効率化を目指したBERTを用いた原資料に対する構造化アルゴリズムの検討

*Yoshihiro Aoyagi1,2, Hideaki Kondo5, Mikina Takiguchi2, Rie Taniguchi3, Ryosuke Maruko5, Satoshi Umehara5, Kimura Yukie3, Yasutoshi Kuboki3, Kandori Naotaka5, Sato Akihiro1, Toshihiko Doi2,4 (1. 国立がん研究センター東病院 臨床研究支援部門 臨床研究推進部, 2. 国立がん研究センター東病院 医療情報部, 3. 国立がん研究センター東病院 臨床研究支援部門 研究実施管理部, 4. 国立がん研究センター 先端医療開発センター, 5. 株式会社エヌ・ティ・ティ・データ 第二公共事業本部 社会保障事業部)

Clinical Trial, Natural Language Processing, Case Report Form

臨床試験では症例報告の作成にあたり医師やCRC等が原資料からEDCに転記することが一般的であるが、その省力化や信頼性の向上を目的として原資料である電子カルテデータを活用して直接的に症例報告書を作成することも検討されている。一方、電子カルテは診療を目的として利用されているため臨床試験を前提とした記録を行うことは一般的ではない。そこで本研究では 自然言語処理モデル活用し、カルテへの入力段階で適切な入力を促すことで、必要な記録を漏れなく高品質に登録し、さらには症例報告書作成に適したデータ構造への構造化を自動的に行うことで、データ収集・症例報告書作成に係る作業負荷を軽減・迅速化することを目的とした検証を行う。
国立がん研究センター東病院内に保管されている電子カルテデータを対象として臨床試験にて収集が必要となる情報を抽出するための解析を行った。また、解析した結果をもとに、BERTを用いたテキスト情報に対する構造化アルゴリズムを作成した。開発したアルゴリズムに対して電子カルテシステムの経過記録相当の文章の入力を行い、入力した文章に対して構造化データが作成されているか評価を行った。
アルゴリズムを用いて有害事象、腫瘍評価の標的病変、非標的病変および新病変対する構造化データが作成されるか否かを試みた結果、症例報告書に転記すべき情報を経過記録から抽出した際の精度はそれぞれ 7% , 40% , 0% , 33%であった。精度が向上しない原因としては、①カルテ内の情報不足に起因するものや②カルテ内に情報はあるものの、名称・発生日などの関連情報が紐づけできないケースが考えられた。①に関しては診察業務中の手順把握などの業務理解を深めることが必要と思われた。また、②はアルゴリズムの改善の必要性が示唆された。①および②を向上させるため今後も症例等の解析を行い、より適切なアルゴリズムの開発を継続する予定である。