[5-C-2-03] プライバシーに配慮した電子カルテのフリーテキスト情報のマスキング処理についての検討
NLP, Praivacy, text data processing
【背景・目的】 がん薬物療法の有効性・安全性の検証を行うにあたり、電子カルテの記載は非構造化データのため解析に用いることが容易ではないという課題がある。検証には実際のデータを確認する必要があるため、プライバシーへの配慮の観点から、診療データの加工を行う必要がある。
【方法】直近5年間で当院を受診・治療した患者の診療データのうち、フリーテキストデータをもつ診療情報を対象とする。汎用的なマスキング処理を行えるよう、正規表現を利用したルールベース処理を行うモジュールを開発した。加工前処理の要素抽出には形態素解析技術を用いた。マスキング処理結果の品質を評価するために、電子カルテDWH内データ群からプライバシーに関連する項目(氏名、住所等)を抜き出し、処理済ファイルに対して全文検索を行う方法、および、一部のデータに対し診療情報管理士等の複数人でマスキングを行い加工モジュールの結果と比較する方法、の2つを検証した。
【結果】対象症例約3万例の記事記載530万件、放射線診断レポート29万件、病理レポート17万等、総テキスト量17億文字に対して約1%のマスキングが行われた。作成した正規表現パターン(例:「実施者:<文字列>」)は21件、形態素解析によるマスキングパターンは約20件であった。形態素解析の精度を上げるために、病名、検体検査項目、薬剤、漢方薬剤、医学用語辞書などをユーザ定義辞書として追加登録した。加工モジュールの処理結果と、人手で検証した結果を比較したところ、一部を除き一致する結果を得た。
【考察】記載が統一されている文章で、かつ、正しい用語の記載であれば、加工ルールを用いることでマスキング処理が可能であることが示唆された。しかしながら、対象文章に誤記や表示のための改行が含まれているケースは、人手では判別できるが、開発したモジュールではうまく処理できなかった。