[4-E-2-03] 統計データの二次統計解析による新たな相関関係の発見を目指した数値シミュレーション
Numerical Simulation, Correlation Analysis, Statistical Data, Personal Information Protection
【目的】個人情報保護法の下、個人の臨床データを公開することは認められないが、複数人を集計した統計データの公開は条件を満たせば認められる。今回我々は、統計データに対して二次統計解析を行うことで新たな医学的知見が得られる可能性があると考えた。すなわち、母集団の変数Aと変数Bに相関があるとき、無作為に複数人ごとに分割、平均化したデータからでも本来の2変数の相関関係が検出できるかどうかを検証した。【方法】母集団をN=1000として、母集団の連続変数Aと連続変数Bの相関がほぼない(r=0.07), 弱い(r=0.27), 中等度(r=0.44)の3通りの場合について数値シミュレーションを行った。nをNの約数とし、母集団をn人ごとにグループ化(G1,G2,,,Gm, ただしN=mn)した後に各グループの変数Aと変数Bの平均値を算出し、これを公開データと想定してその後の相関解析に使用した。各nに対して、ランダムに100回のグループ化を行った。相関解析にはピアソンの積率相関係数を用いた。解析環境としてPython/NumPy/SciPyを用いた。【結果】全体として、nが大きくなる(すなわち1グループの人数が大きくなる)ほど推定相関係数がばらつくようになり、p値が有意水準に達しない試行の割合が増加した。相関が中等度の場合は、n≦10では全試行において変数AとBの有意(p<0.05)な相関関係を得ることができ、その後nの増加とともにp>0.05となる割合が増加したが、n=50でも51%の試行でp<0.05を満たした。n=10での推定相関係数はr=0.43±0.08であった。一方、相関が弱い場合はn≦4では全試行でp<0.05を満たしたが、n=50ではp<0.05を満たすものは21%にとどまった。n=10での推定相関係数は0.26±0.09であった。相関がほぼない場合は、n=1のときのみ全試行でp<0.05を満たし、n=50ではp<0.05を満たすものは7%にとどまった。【考察・結論】本法の検出力は母集団における変数の相関の強さに依存するものの、条件が揃えば母集団の相関関係を復元することができ、個人情報を保護しながらデータを利活用するための有力な方法になりうると考えられる。
