日本語自然文で記載された電子カルテ記述の匿名化

渡辺 淳

[2-L-1-PP2-1] 日本語自然文で記載された電子カルテ記述の匿名化

渡辺淳, 仲野俊成 (関西医科大学大学情報センター)

【背景・目的】改正個人情報保護法施行と次世代診療情報基盤整備法成立に伴い、完全匿名化診療データの利活用が期待されている。本研究では、診療記録の自然文における個人を特定し得る情報（以下、個人情報と称する）の完全匿名化の問題点について検討した。【材料と方法】患者プロファイル等を含む構造化データを除去した電子カルテ記載から抽出したアセスメント項およびプラン項の日本語自然文（約2万文）における個人情報記述の状況を調べて匿名化にあたっての問題点を洗い出し、処理方略を検討した。【結果と考察】自然文1,000文あたり、患者姓名（姓のみの場合も含む）は1~2箇所観察された。姓・名共に記載されていたのは逆紹介のための診療情報提供書やコンサルテーション依頼文書(一部)で、他は姓のみであった患者名に必ず敬称(「様」）が付されており、人名と強い共起関係がみられた敬称（様）を抽出することで、患者氏名を遺漏なく抽出できた。しかしながら、敬称がついた名前のほとんどは「患者様」「奥様」など固有の人名を指さないもの（1000文あたり10箇所程度）であり、さらに病態等を示す「〜様」等の敬称以外の用法が1,000文あたり約300箇所含まれていた。姓名とも記載された患者氏名の少数については、匿名化されなかった場合、近傍に記載された医療機関名を匿名化しない場合には、一意に特定される可能性が示唆された。他方、診療スタッフ等の氏名の記載は1000文あたり20〜30箇所存在し、敬称・職位等を指標に抽出できないものが1,000文あたり20箇所程度存在した。それらの少数(4%)は、近傍記載の診療科名等の記述から、Webに公開された情報の検索で個人の特定に至った。また、医師についてはk-匿名化でkが3以下となるケースが10%を超えた。匿名加工の自動化による匿名化率は人名辞書の収載語数に大きく依存し、目視確認なしでは姓名の検出漏れによる残存によって適切な匿名化が困難となるケースが生ずる可能性が示された。

The 37th Joint Conference on Medical Informatics

[2-L-1-PP2-1] 日本語自然文で記載された電子カルテ記述の匿名化