17:40 〜 18:00
[3H6-OS-10d-01] 反復分割精選アンサンブル法による疾患予測モデル開発
キーワード:疾患予測モデル、機械学習、自動機械学習、反復分割法、データ駆動医科学
実臨床における医療データは、サンプルサイズに限りがあることが多い。少ないデータを機械学習のためさらに学習・検証・テストセットに分割すると、データに偏りが生じ、構築されたモデルの汎用性低下が懸念される。そのため、我々はデータ分割を変えながらモデル構築を繰り返し、検証データにおける予測精度が上位のモデルをアンサンブルする方法を考案した。解析には、数百名規模の患者データを用い、80%の開発用と20%のテスト用に分割し、ホールドアウト法により評価を行った。モデル構築には、前処理と学習アルゴリズムの最適パイプラインを自動的に探索するAutoMLを用いた。開発データセットは、75%の学習用と25%の検証用に1000回シードを変えて反復分割(repeated splitting)し、各分割においてAutoMLで学習させた。スパース線形モデルやアンサンブル決定木、およびそれらの混合を用いて、各パイプラインのトップK個(K=1〜1000)のアンサンブルモデルを作成した。検証セットにおける最適なKを採用したアンサンブルモデルにおいて、テストデータに対する予測性能が既存手法より優れたアルゴリズムが得られた。
講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。