一般社団法人 日本医療情報学会

[3-D-2-04] 医療データにおけるフリーテキスト匿名化の現状と課題

*後藤 慎太朗1 (1. 日本医師会医療情報管理機構)

Free-text anonymization, Sensitive information, NLP

医療データを構成する項目の中には自由記載項目があり、個人を特定しうる特徴的な記述が少なからず含まれている。J-MIMOはそうした自由記載項目に含まれる個人情報に類する記述をマスキングし、利活用できるデータとして提供するための取り組みを積極的に行ってきた。
近年ではAI技術の普及により個人レベルで自然言語処理の利用が可能となったことで、医学分野の研究者が自らテキストマイニングを実施したいといった需要も高まり、自由記載項目の重要性が増している。
医療データに含まれる個人情報は患者やその家族の情報はもちろん、関係する医療従事者の情報も含まれる。J-MIMOでは患者だけでなく医療従事者につながる情報をも保護すべくポリシーを定めている。さらにマスキング部分は文脈内での意味をある程度判別できるよう【人名】【地名】【施設名】といったように種別ごとに置換文字列を分けている。
また、データの有益性という点で機械的なマスキングを避けるべき医学用語(長谷川式スケールなど)などの存在も考慮に入れる必要がある。
こうした要件から、これまでマスキング作業には相当な人手を要してきた。
J-MIMOが扱うSS-MIX2データの自由記載項目は平均40文字のデータで構成され、全レコードの約3%にマスク対象が含まれる。人手作業への依存度が高かったかつては、3カ月単位の作業工数として100人日以上をかけて処理していた。
現在はBERTなど自然言語処理の導入により大幅な効率化を実現できたが、課題も残る。たとえば教師データとして用意していない観点には対応できず、依然として人の目による確認が必要である。
最近はGPT-4をはじめとする超巨大言語モデルが普及しつつあるが、そうしたモデルの利用により記述の特異さそのものを理解し、人間の判断を必要としない高度な処理の実現が期待される。