Japan Association for Medical Informatics

[2-H-1-3] 多施設間の安全なデータ収集を目的とした情報基盤におけるプライバシリスク評価の試み

田中 勝弥1, 山本 隆一2 (1.東京大学大学院医学系研究科, 2.医療情報システム開発センター)

[はじめに] 現在多くの施設で導入されているSS-MIX2標準化ストレージは、ファイルシステムとしての制約から、患者横断的な診療データの検索に時間がかかる難点があり、多施設間横断的な診療データの収集に用いるためには、別途データベースを構築し双方を同期させて運用するなどの追加コストが発生する。また、抽出されたデータセットの安全な流通にあたっては、匿名加工基準に準拠しつつも、抽出ごとにデータセットを評価する運用が不可欠である。[方法] これまでに提案した、FUSE(File System in User space)をベースとしたリレーショナルデータベース上に実装可能なSS-MIX2標準化ストレージを用い、Bloom Filterによるストレージ間の重複レコード突合機能、抽出されたデータセット内の指定属性をキーにした重複度評価が可能な機能を試作した。東京大学医学部附属病院のSS-MIX2標準化ストレージ内の全メッセージを匿名加工したデータを複数の上記ストレージにランダムに分散させ、仮想的に多施設ストレージを構築し、ストレージ間のレコード群の突合を検証した。なお、ストレージ間のレコード群は10%ずつ重複させた。[結果] 試作したテストベッドにより、100万件程度のレコードをストレージ間の突合・データ抽出が1分程度で完遂可能なことを確認した。また、抽出されたデータセットに対して、対象となる属性を指定したうえで、上限値・下限値の指定、分割幅の指定、レコード間の重複度評価、出力時の重複度指定、が可能なユーザインターフェイスを作成し、試作機の動作確認が完了した。[おわりに] これまでに提案したFUSEベースのSS-MIX2標準化ストレージを応用することにより、ストレージ間の突合、抽出、データセットの評価という安全なデータ収集基盤としての一連の試作が完了した。より具体的な収集事例への適用について今後検討を進めたい。