一般社団法人 日本医療情報学会

[2-G-3-04] 特定健診データと医療レセプトを用いた機械学習による高尿酸血症の予測モデルの構築

*前田 蒼生1 (1. 北海道大学保健科学院)

machine learning, hyperuricemia, statistical

【目的】高尿酸血症はメタボリックシンドロームの危険因子として重要であり、早期発見と予防が求められる。しかし、特定健診データには高尿酸血症の診断に必要な血清尿酸値は含まれていないため間接的に高尿酸血症を予測する手法が確立されれば、非常に有用である。本研究の目的は、特定健診データと医科レセプトを用いて高尿酸血症の予測モデルを構築し、最適なモデルを明らかにすることである。先行研究では決定木ベースのランダムフォレスト(RF)、勾配ブースティング(GBDT)が高い性能を示す研究が多かった。 【方法】本研究では2015年から2021年までの北海道岩見沢市の特定健診データと医科レセプトを用いて、非侵襲的なデータ(生活習慣項目)を変数としてロジスティック回帰(LR)(L1・L2正則化)、ランダムフォレスト(RF)、勾配ブースティング(GBDT)の4つのモデルを構築し、さらにスタッキング法で複数モデルを組み合わせた予測モデルを構築した。性能評価はROC曲線下面積(AUC)を用いた。 【結果】単一モデルの性能評価では、RFとGBDTが高い予測性能を示し、AUCはどちらも0.820であった。スタッキング法ではRFをベースモデル、LRをメタモデルとしたモデルが最も高い予測性能を示し、AUCは0.829であった。 【考察・結論】 スタッキング法によるモデルは単一モデルよりも高い予測精度を示し、特にRFとLRの組み合わせが最も高い性能を発揮した。本研究の結果は、特定健診データと医科レセプトを活用して高尿酸血症の早期発見と予防が可能であることを示している。ただし、地域的制約や自己申告データの信頼性などの限界があり、他地域での適用可能性については今後の研究が必要である。 【倫理的配慮】本研究の実施にあたり、特定健診データおよび医科レセプトは岩見沢市で匿名化を行った上で提供頂いた。尚、本研究は北海道大学大学院保健科学研究院倫理審査委員会の承認を得た上で実施している。