[3-D-2-06] 医学研究における匿名加工医療情報と源データと比較(研究結果への影響)
The Next Generation Medical Infrastructure Act (NGMIA), anonymized medical data, pseudonymized medical data
2018年施行の次世代医療基盤法の利活用事例は、2023年12月末時点で37件(内閣府健康・医療戦略推進事務局資料)と少ない。仮名加工医療情報の追加や公的DBとの連結など、データ種類を増やすなど対応しているが、活用を増やすにはそれ以外の解決すべき課題があると考える。
例えばデータ提供する誘因が不明慮なこと。通知や運用にかかるコスト増が懸念される。これらはデータ提供時の課題であり、利用時の課題とは異なる。恐らくはIDの名寄せ精度や標準化の状況がわからない、匿名加工医療情報(匿名加工)が源データと比較し研究結果に及ぼす影響がわからないなど、データ精度に関する疑念がある。研究成果に関わることから、活用が進まない1つの理由と考える合理性がある。匿名加工と源データにどのような差が生じ影響を与えるかを、実際の加工ファイルを用いて検証したので報告する。
東北大学病院の通知済み(9万人超:2024年7月末時点)患者のうち、2019年4月1日~2020年1月1日の源データと匿名加工相当(認定事業者作成)で検証した(症例数、検査、会計、傷病名の数や値の平均値を比較)。
匿名加工で症例数が減ったのは非同意分(約0.02%)分のみで、希少症例等の除外は発生しなかった。傷病名は112,365が112,280(△85)、検査数は2,704,148が2,697,354(△6,794)、白血球数は20,109が20,055(△54)、最小値と最大値とも変わらず、平均が-0.00011、標準偏差が-0.00226だった。会計は合計点数6,379,042,902が 6,371,972,708 (△7,070,194)だった。
単一施設では匿名加工による影響は少なく非同意者数が課題である。現実的には特別な対応なしに0.002%であり課題にならないだろう。その脱落率であれば、検査値なども影響を受けないと考えられる。
例えばデータ提供する誘因が不明慮なこと。通知や運用にかかるコスト増が懸念される。これらはデータ提供時の課題であり、利用時の課題とは異なる。恐らくはIDの名寄せ精度や標準化の状況がわからない、匿名加工医療情報(匿名加工)が源データと比較し研究結果に及ぼす影響がわからないなど、データ精度に関する疑念がある。研究成果に関わることから、活用が進まない1つの理由と考える合理性がある。匿名加工と源データにどのような差が生じ影響を与えるかを、実際の加工ファイルを用いて検証したので報告する。
東北大学病院の通知済み(9万人超:2024年7月末時点)患者のうち、2019年4月1日~2020年1月1日の源データと匿名加工相当(認定事業者作成)で検証した(症例数、検査、会計、傷病名の数や値の平均値を比較)。
匿名加工で症例数が減ったのは非同意分(約0.02%)分のみで、希少症例等の除外は発生しなかった。傷病名は112,365が112,280(△85)、検査数は2,704,148が2,697,354(△6,794)、白血球数は20,109が20,055(△54)、最小値と最大値とも変わらず、平均が-0.00011、標準偏差が-0.00226だった。会計は合計点数6,379,042,902が 6,371,972,708 (△7,070,194)だった。
単一施設では匿名加工による影響は少なく非同意者数が課題である。現実的には特別な対応なしに0.002%であり課題にならないだろう。その脱落率であれば、検査値なども影響を受けないと考えられる。
