[I-SY2-4] 川崎病臨床におけるAI(機械学習)の可能性-決定木に基づくアンサンブル学習を用いた川崎病冠動脈病変リスク予測-
キーワード:川崎病, 機械学習, 決定木
【背景】機械学習はデータ駆動型研究において重要な役割を担い、近年、様々な分野で応用されつつある。私たちは多数の決定木に基づくアンサンブル学習とShapley Additive Explanation (SHAP)法を用いて、川崎病(KD)における初回IVIG不応予測を行ってきた。今回この手法を発展させ、冠動脈病変(CAL)出現の予測を試みた。
【方法】2015年から2022年の間に山梨大学および関連病院で診断され、統一のプロトコールで治療されたKD症例726例を対象とした。説明変数は診断時の臨床データ52項目、目的変数はCAL(1か月以内に小瘤以上を形成した症例)とし、全症例の80%をtraining data、20%をtest dataとした。Random Forest(RF)法、Extreme Gradient Boosting(XGBoost)法、Light Gradient Boosting Machine (Light GBM)法とCategory Boosting(Cat Boost)法で予測し精度を比較した。また最も精度がよいアルゴリズムで予測モデルに影響した説明変数をSHAP法で特定した。
【結果】各アルゴリズムのAUCは、それぞれRF法:0.82、XGBoost法:0.80、Light GBM法:0.81とCatBoost法:0.83であった。CatBoost法の精度、感度、特異度はそれぞれ0.87、0.56、0.93であった。SHAPの結果、予測モデルに影響した上位項目は治療前冠動脈Z score、実測値、CRP値とHb値であり、治療前冠動脈Z scoreはSHAP値が最大であった。
【考察】決定木に基づくアンサンブル学習を用いて、治療前の臨床データからCAL出現を予測することができた。予測モデルに影響した上位項目は、いずれもCALのリスク因子として過去に報告されている項目であった。今後、解析規模を拡張することで新たな予測因子を発見できる可能性があり、より精度の高い予測モデルの作成や治療を選択する際の一助となりうる。
【結語】決定木に基づくアンサンブル学習とSHAPは汎用性があり、予測だけでなく予測モデルに影響した項目を知ることができるため、川崎病へのさらなる臨床応用が期待される。
【方法】2015年から2022年の間に山梨大学および関連病院で診断され、統一のプロトコールで治療されたKD症例726例を対象とした。説明変数は診断時の臨床データ52項目、目的変数はCAL(1か月以内に小瘤以上を形成した症例)とし、全症例の80%をtraining data、20%をtest dataとした。Random Forest(RF)法、Extreme Gradient Boosting(XGBoost)法、Light Gradient Boosting Machine (Light GBM)法とCategory Boosting(Cat Boost)法で予測し精度を比較した。また最も精度がよいアルゴリズムで予測モデルに影響した説明変数をSHAP法で特定した。
【結果】各アルゴリズムのAUCは、それぞれRF法:0.82、XGBoost法:0.80、Light GBM法:0.81とCatBoost法:0.83であった。CatBoost法の精度、感度、特異度はそれぞれ0.87、0.56、0.93であった。SHAPの結果、予測モデルに影響した上位項目は治療前冠動脈Z score、実測値、CRP値とHb値であり、治療前冠動脈Z scoreはSHAP値が最大であった。
【考察】決定木に基づくアンサンブル学習を用いて、治療前の臨床データからCAL出現を予測することができた。予測モデルに影響した上位項目は、いずれもCALのリスク因子として過去に報告されている項目であった。今後、解析規模を拡張することで新たな予測因子を発見できる可能性があり、より精度の高い予測モデルの作成や治療を選択する際の一助となりうる。
【結語】決定木に基づくアンサンブル学習とSHAPは汎用性があり、予測だけでなく予測モデルに影響した項目を知ることができるため、川崎病へのさらなる臨床応用が期待される。