[2-J-1-2] 疾病罹患有無予測モデルにおけるデータバランスの検討
日本においては2008年の特定健康診査・特定保健指導制度(以下、特定健診)の開始以降保険者において、莫大な健診結果データが蓄積されている。健診データを予測モデルに利用する際、非患者データが多数派データ、患者データが少数派データとなる。したがって健診データを用いた予測モデルを構築する際、多数派データへの過学習を防ぐためにサンプルサイズの不均衡を調節する必要がある。本研究では、特定健診データを用いて高尿酸血症の罹患有無を予測するモデルを構築し、不均衡の調節を行った上で、予測性能を保持できるデータバランス(多数派データ-少数派データ比)について検討を行った。予測モデル構築には特定健診データ61,313件を用いて、訓練用データと検証用データがそれぞれ70%、30%になるよう分割した。手法としてはGradient Boosting Decision Tree(以下、GBDT)、ランダムフォレスト(以下、RF)、L1正則化ロジスティック回帰(以下、LR)を用いた。評価として訓練用データにおいて多数派データが占める割合を10 %から、少数派データと同数の50 %まで10 %刻みで変化させ、検証用データに対する予測性能がどのように変化するかを検証した。不均衡の調節には多数派データに対するアンダーサンプリングを、予測性能の評価指標にはArea Under the Curve(AUC)を用いた。結果として少数派データとほぼ同数まで多数派データを削減しても予測モデルの予測性能に大きな変化は認められず、予測モデル構築におけるデータ収集については少数派データの収集が重要であることが示唆された。