[4-D-2-1] Shapley Additive Explanationを用いた機械学習モデルの解釈と医療実データへの応用
【はじめに】近年、深層学習をはじめとする機械学習手法の医療分野への応用が進んでいる。従来、医療統計でよく用いられてきた線形モデルと異なり、機械学習モデルでは中身がブラックボックスの場合が多く、なぜそのような結果が出たのかが説明できない点が大きな課題とされてきた。SHAP (SHapley Additive exPlanation)は、機械学習の結果を解釈する手法の一つである。経済学者シャプレーが考案した「複数人が協力して仕事をした場合の利益の公平分配方法」を応用し、機械学習の出力を各説明変数の貢献度に応じて決まるSHAP値の線形和の形で表現する。本発表では、SHAPをロジスティック回帰分析と対比させることでその意義を議論するとともに、医療実データを基に構築した機械学習モデルに適用して解釈を行い、従来解釈手法との比較を行う。【方法】急性期病院Aで2年間に起きた全転倒事故事例、および同時期に入院した20歳以上の全患者データを基に、機械学習を用いて転倒に関する予測器を作成する。Gainを用いた変数重要度およびPartial Dependence Plotを用いた解析結果(2018年春季学術大会で発表、従来手法)とSHAPを用いて新たに解釈した結果を比較する。【結果と考察】アウトカムへの影響が大きな説明変数Top20を、従来手法とSHAPを用いて求めたところ、両者で概ね一致したが、一部異なるものが見られた。SHAPでは、体重・身長・BMIのように関連性の高い値をグループ化して、その合成変数の重要度を求めることができ、解析結果をより分かりやすい形にすることが可能となった。また交互作用項があると、同じ説明変数の値に対して、SHAP値がばらつくことを利用し、交互作用項を容易に探索することができた。SHAPは、従来の解釈方法よりも解釈性などの面で優れていた。