実医療データを用いた合成データ生成技術の有用性検証の課題

三浦 尭之

[2-F-1-03] 実医療データを用いた合成データ生成技術の有用性検証の課題

*三浦尭之¹、市川敦謙¹、紀伊真昇¹、山本充子¹、木村映善² (1. NTT社会情報研究所、2. 愛媛大学)

real world data, synthetic data generation, differential privacy

日々の診療行為から発生するReal World Data(RWD)には医療ビックデータとしての利活用に期待が高まっている．一方で，その利活用にあたってはRWDに含まれる要配慮個人情報及び個人のプライバシーへの配慮が必要である．また，医療ビッグデータの一つに，次世代医療基盤法下の認定事業者より提供される匿名加工医療情報があるが，この匿名加工医療情報に関する利用実績や知見が少なく， RWD研究における有用性の評価が期待されている．本研究では，差分プライバシーの概念を取り入れてプライバシー保護性を理論的に保証し，かつ元データが保有する統計量に近似させた合成データをRWDから生成し，その合成データをオリジナルデータの代わりに利活用できるようにすることを目指した．プライバシー保護性を保証した合成データ生成手法について統計量ベースのものや深層学習ベースのものなど数多く提案されているが，実際のデータを用いて有用性を検証した実験は多くない．本報告では，統計量ベース（G―Copula， STAT），機械学習ベース（Bayesian Network， AIM， MWEM），深層学習ベース（Conditional Tabular Gan）の多用な合成データ生成技術の優劣や特徴について検証した．データとして，愛媛大学医学部附属病院のDPCデータ及びライフデータイニシアティブ社の匿名加工医療情報を用いた．本シンポジウムでは，それぞれのデータを用いた評価の結果と合成データ生成アルゴリズムの特性，ならびにこれらのデータを活用するときの課題について提言する．本研究は愛媛大学医学部の倫理審査委員会の承認を得て実施した（研究課題名「統計的特徴を維持した合成データ生成手法の品質評価」承認番号 2012001)．

第43回医療情報学連合大会（第24回日本医療情報学会学術大会）

[2-F-1-03] 実医療データを用いた合成データ生成技術の有用性検証の課題