Japan Association for Medical Informatics

[4-F-1-04] 診療記録で事前学習した汎用言語モデルからの個人情報流出リスクの定量的評価

*Yuta Nakamura1, Shouhei Hanaoka2, Yukihiro Nomura3, Naoto Hayashi3, Osamu Abe1,2, Shuntaro Yada4, Shoko Wakamiya4, Eiji Aramaki4 (1. 東京大学医学系研究科 生体物理医学専攻, 2. 東京大学医学部附属病院 放射線科, 3. 東京大学医学部放射線医学教室 コンピュータ画像診断学/予防医学講座, 4. 奈良先端科学技術大学院大学)

Privacy in Machine Learning, Model Inversion Attack, Natural Language Processing, Deep Learning, Bidirectional Encoder Representations from Transformers


【背景・目的】深層学習による自然言語処理の発展は,フリーテキスト診療記録の解析を可能にしつつある.その技術の代表例はBERTとよばれる言語モデルであり,大量の書籍等を用いた事前学習により高性能を発揮するが, 学習データを診療記録に変えて医療分野に特化させたBERTの報告も増えており,その中にはオープンな言語資源として公開されているものもある.モデルの公開/非公開は作成者が個別に判断しており,明確な指針は存在しない.理由として,言語モデルと個人情報流出リスクの関係についての知見の少なさが挙げられる.言語モデルから学習データをある程度推測できることは既に知られているが,それがもたらす個人の識別性や,学習データの匿名化処理との関係にまで踏み込んだ報告は乏しい.そこで本研究では,同一の医療機関が2つの言語資源,すなわち言語モデル(非匿名化診療記録で学習したBERT)と匿名化済み診療記録を公開した状況を想定し,悪意ある第三者が言語モデルから個人情報の復元を試みた場合の実現性を定量的に評価した.

【材料・方法】英語の匿名化済み診療記録集MIMIC-IIIのうち約20万文書にダミー識別子を埋め込んで非匿名化診療記録に見立て,これを用いてBERTを学習した.次に,このBERTに匿名化済み診療記録の患者氏名マスキング部分を復元させ,その正確さを評価した.

【結果】非匿名化診療記録で学習したBERTはTop-100 accuracy 2.9%で患者氏名を復元した.一方,学習データをHIPAA準拠匿名化した場合は0%となった.

【考察】文書データを匿名化せずに言語モデルの学習に用いることは個人情報流出リスクとなりうる.しかし匿名化処理は高コストでもある.よって,これがどの程度現実的な脅威につながるのかは今後の医療AI開発体制やその迅速性を左右する重要な問いであり,引き続き包括的な検討を続けたい.