[2-J-3-03] 機械学習による特定健診データを用いた2型糖尿病疾病予測モデルの構築および検証
Specific health checkups, type 2 diabetes, machine learning model
機械学習やAIの発展によりヘルスケア分野においてもビックデータの活用が増加し、その1つに健康診断データを使用した生活習慣病予測を行うケースがみられる。中でも2型糖尿病は重症化による医療費増加を引き起こしており、さらに採血のような侵襲的検査では受診者に身体的及び、精神的負担を与えている。そのため本研究では、機械学習を用いて特定健診データから身体情報及び質問票結果(非侵襲的データ)による2型糖尿病発症予測モデルを構築し、2型糖尿病の重症化予防につなげることを目的としている。
本研究では北海道岩見沢市健康福祉部健康づくり推進課より提供された、岩見沢市住民対象の2017年度から2019年度までの特定健診データ6,917件、医療レセプトデータ950,705件を用いて分析を行った。特に2017-2018年度に特定健診を受診し、2019年度に医療レセプトデータから新たに2型糖尿病を発症した記録がある585人を対象に機械学習モデルの1つであるXGBoostを採用し構築を行った。モデル構築で使用する予測因子には特定健診データのうち、身体情報及び質問票結果を用いて予測を行った。
分析の結果、構築されたモデルにおけるテストデータの予測正解率は85.9%、モデルの予測精度指標の1つであるAUCは0.89の予測性能を示した。
本研究の結果からレセプトデータと特定健診データによる連結したデータを活用することで、医療介入前から2型糖尿病の発症予測の可能性が示され、レセプトデータ及び特定健診データを活用した2型糖尿病の早期発見及び重症化予防に貢献できると考られる。また、特定健診データのうち非侵襲データのみによる2型糖尿病の発症予測へとつなげられると考えられる。
本研究では北海道岩見沢市健康福祉部健康づくり推進課より提供された、岩見沢市住民対象の2017年度から2019年度までの特定健診データ6,917件、医療レセプトデータ950,705件を用いて分析を行った。特に2017-2018年度に特定健診を受診し、2019年度に医療レセプトデータから新たに2型糖尿病を発症した記録がある585人を対象に機械学習モデルの1つであるXGBoostを採用し構築を行った。モデル構築で使用する予測因子には特定健診データのうち、身体情報及び質問票結果を用いて予測を行った。
分析の結果、構築されたモデルにおけるテストデータの予測正解率は85.9%、モデルの予測精度指標の1つであるAUCは0.89の予測性能を示した。
本研究の結果からレセプトデータと特定健診データによる連結したデータを活用することで、医療介入前から2型糖尿病の発症予測の可能性が示され、レセプトデータ及び特定健診データを活用した2型糖尿病の早期発見及び重症化予防に貢献できると考られる。また、特定健診データのうち非侵襲データのみによる2型糖尿病の発症予測へとつなげられると考えられる。