[II-SY18-04] 川崎病における機械学習を用いた新たな免疫グロブリン静注(IVIG)療法不応予測- Random Forest法とSHAP(Shapley additive explanation)の有用性-
キーワード:川崎病, ランダムフォレスト, 機械学習
【背景】川崎病(KD)は、初期治療の層別化に伴い、治療前のIVIG不応リスクをより正確に予測することが重要となっている。今回、機械学習の一手法であるRandom Forest法を使用しIVIG不応を予測した。
【方法】2010年から2020年の間に山梨大学およびその関連病院で診断、治療されたKD症例996例を対象とした。996例のうち、225例(22.6%)が初回IVIG不応であった。機械学習の説明変数は診断時における臨床データの計30項目とし、目的変数はIVIG不応とした。996例中、80%をトレーニングデータ、20%をテストデータとし多数の決定木に基づいたアンサンブル学習アルゴリズムであるRandom Forest法を用いて解析した。また予測モデルに影響を与える説明変数をSHAP(Shapley additive explanation)で特定した。それらの結果から簡便なIVIG不応予測スコアを構築した。
【結果】Random Forest法によるIVIG不応予測のAUC、感度、特異度は、それぞれ0.75、0.54、0.80であった。IVIG不応予測モデルに影響を与えた上位の項目は、治療開始日、血清CRP、ナトリウム、総ビリルビン、総コレステロールであった。新たに構築したIVIG不応予測スコアのAUC、感度、特異度はそれぞれ0.73、0.55、0.83であった。
【考察】Random Forest法は、説明変数を大幅に増加させても解析が成立するため、変数を増やすことで、より有用な予測モデルの作成、KDの病態生理に関連する新たな因子の発見ができる可能性がある。今回、Random Forest 法の結果から総コレステロールが、IVIG不応に関連することが示された。総コレステロールは、過去に報告されているIVIG不応予測スコアにない項目であるが、近年の研究からKDの病態生理へ関与することが報告されている。
【結論】Random Forest法によるKDのIVIG不応予測を行い、その有用性を確認した。またSHAPを適用することでRandom Forest 法の説明変数の意義を明確化し、新規の簡便なスコアリングシステムを構築した。
【方法】2010年から2020年の間に山梨大学およびその関連病院で診断、治療されたKD症例996例を対象とした。996例のうち、225例(22.6%)が初回IVIG不応であった。機械学習の説明変数は診断時における臨床データの計30項目とし、目的変数はIVIG不応とした。996例中、80%をトレーニングデータ、20%をテストデータとし多数の決定木に基づいたアンサンブル学習アルゴリズムであるRandom Forest法を用いて解析した。また予測モデルに影響を与える説明変数をSHAP(Shapley additive explanation)で特定した。それらの結果から簡便なIVIG不応予測スコアを構築した。
【結果】Random Forest法によるIVIG不応予測のAUC、感度、特異度は、それぞれ0.75、0.54、0.80であった。IVIG不応予測モデルに影響を与えた上位の項目は、治療開始日、血清CRP、ナトリウム、総ビリルビン、総コレステロールであった。新たに構築したIVIG不応予測スコアのAUC、感度、特異度はそれぞれ0.73、0.55、0.83であった。
【考察】Random Forest法は、説明変数を大幅に増加させても解析が成立するため、変数を増やすことで、より有用な予測モデルの作成、KDの病態生理に関連する新たな因子の発見ができる可能性がある。今回、Random Forest 法の結果から総コレステロールが、IVIG不応に関連することが示された。総コレステロールは、過去に報告されているIVIG不応予測スコアにない項目であるが、近年の研究からKDの病態生理へ関与することが報告されている。
【結論】Random Forest法によるKDのIVIG不応予測を行い、その有用性を確認した。またSHAPを適用することでRandom Forest 法の説明変数の意義を明確化し、新規の簡便なスコアリングシステムを構築した。