[4-G-3-04] プライバシーに配慮した診療データマスキングのための非構造化文書の分析と処理精度向上の検討
NLP, Morphologic analysis, Data Processing, Masking
【背景・目的】患者の症状や予後に関連する情報が含まれている非構造形式の診療データ解析する試みが多数実施されている。解析には実際のデータを確認する必要があるが、プライバシーの配慮の観点から診療データの加工を行う必要がある。我々は、加工ルールを利用したフリーテキストのマスキング処理について検討している。今回、対象となる診療データの傾向を整理したので報告する。 【方法】直近5年間で当院を受診した患者の診療データのうちフリーテキスト形式の診療情報として、プログレスノート、手術レポート、病理レポート等6種類の記録を対象とした。これらの記録に対して形態素解析による固有名詞(人名、地名)を抽出し全記録に対する割合を確認した。 【結果】対象症例約3万例について約630万件の記録が抽出された。固有名詞の割合は手術レポート(0.55%)、プログレスノート(0.51%)の順に高かった。プログレスノートの固有名詞含有率は、医師(0.36%)、看護師(0.13%)の順に高く、中央部門スタッフの記載はほぼ0%であった。全記録のなかで、形態素解析の要素が固有名詞であるものをマスキングした記録は39%、記録文書の特徴を捉えた加工ルールに基づく加工を行ったのは18%であった。 【考察】患者に直接アクセスしながら記載するものや担当者名を明記する記録に固有名詞出現率が高率なのは診療フローを考えると矛盾がない。形態素解析の要素判定だけでは十分なマスキングを行うことはできず、文書ごとに個別にルールを生成し適用することで精度があがった。しかし、マスキングが必要な用語と薬品名等に含まれるマスキング不要の用語を正しく区別する必要があり、そのためには辞書の充実が求められることがわかった。 【結語】適切な辞書の生成がマスキング処理の精度向上に貢献することが示唆された。今後、辞書充実と加工ルールへの適用方法を検討したい。