5:40 PM - 6:00 PM
[3H6-OS-10d-01] Development of Disease Prediction Models Using Pruned Ensemble with Repeated Splitting
Keywords:Disease Prediction Model, Machine Learning , AutoML, Repeated Splitting , Data-driven Medical Science
実臨床における医療データは、サンプルサイズに限りがあることが多い。少ないデータを機械学習のためさらに学習・検証・テストセットに分割すると、データに偏りが生じ、構築されたモデルの汎用性低下が懸念される。そのため、我々はデータ分割を変えながらモデル構築を繰り返し、検証データにおける予測精度が上位のモデルをアンサンブルする方法を考案した。解析には、数百名規模の患者データを用い、80%の開発用と20%のテスト用に分割し、ホールドアウト法により評価を行った。モデル構築には、前処理と学習アルゴリズムの最適パイプラインを自動的に探索するAutoMLを用いた。開発データセットは、75%の学習用と25%の検証用に1000回シードを変えて反復分割(repeated splitting)し、各分割においてAutoMLで学習させた。スパース線形モデルやアンサンブル決定木、およびそれらの混合を用いて、各パイプラインのトップK個(K=1〜1000)のアンサンブルモデルを作成した。検証セットにおける最適なKを採用したアンサンブルモデルにおいて、テストデータに対する予測性能が既存手法より優れたアルゴリズムが得られた。
Authentication for paper PDF access
A password is required to view paper PDFs. If you are a registered participant, please log on the site from Participant Log In.
You could view the PDF with entering the PDF viewing password bellow.