Japan Association for Medical Informatics

[2-C-1-01] 自由利用可能な擬似血液検査データセットの構築

城 真範1、興梠 貴英2、香川 璃奈3 (1. 産業技術総合研究所 人間情報研究部門, 2. 自治医科大学 医療情報部, 3. 筑波大学 医学医療系 医療情報マネジメント学)

pseudo data, laboratory test, parametric model

医学教育、医療機器等の広告など、ヒト由来データの例示が必要な場面において、個人情報が暴露されるリスクを無くし、誰もが安全に利用できる擬似的な医療データの構築を行っている。擬似医療データはまた、実際の患者から得られたデータの特徴を評価する際の基準として利用することもできる。
一般に血液検査値の分布は正規分布とはならず、値が正常であるかの判断基準は、分布を伴わない値の範囲のみで示される。このため計算機で擬似的なサンプルを出力するためには、何らかの分布を仮定すること必要になる。本研究では、大学病院で単一の検査法から得られた実際の検査値約1万件から、Kullback Leibler divergenceを用いて、検査値の分布を4自由度を持つパラメトリックな統計分布で近似することとした。
本研究では心疾患の一部及び値が正常範囲にある擬似血液検査値のサンプルを提供する。通常、病院の患者データは健康な人のデータではないが、本研究では、疾病と無関係と思われる検査値を正常と考えることで、正常な検査値のみの抽出を実現した。具体的には、(i)各患者がもつ疾患を登録病名などの診療情報に基づいて明らかにし、(ii)疾患と検体検査結果の相関を相関ルールマイニングで明らかにした上で、(iii)(i)と(ii)の結果を利用して、各患者のうち 患者に付与されている病名と 相関の低い検査値を 正常な検査値とみなした。検査項目の中で、特に利用頻度が高いと思われる赤血球数やHbA1cなど12種類の擬似的な正常検査値のデータセットを構築した。
検査値の分布を統計関数で表現することで数理的な検討を可能にし、高速なサンプリングを可能にした。これは、ヒト由来データの例示が必要な場面において利用できる標準的なデータセットとして応用可能である。