Japan Association for Medical Informatics

[3-G-1-03] 交互作用を考慮したSHAPによる機械学習モデルの解釈手法の提案

*Yasunobu Nohara1, Toyoshi Inoguchi2, Chinatsu Nojiri3, Naoki Nakashima3 (1. 熊本大学大学院, 2. 福岡市健康づくりサポートセンター, 3. 九州大学病院)

SHAP, Machine Learning, Explanation, Interaction effect

【背景】近年、機械学習手法の医療分野への応用が進んでいる。機械学習モデルは非線形性や交互作用等をとらえやすく予測性能が高い一方で、中身がブラックボックスの場合が多く、なぜそのような結果が出たのかが説明できない点が大きな課題とされてきた。SHAPは、機械学習の結果を解釈する手法の一つであり、機械学習の出力を各説明変数の貢献度に応じて決まるSHAP値の線形和の形で表現する。著者らは、これまでにSHAPを脳梗塞軽症パスの重症度予測等の様々なモデルに適用し、春季学術大会等で発表してきた。
【課題】交互作用とは、ある説明変数が目的変数に与える影響が、他の説明変数の値によって異なることである。単独の説明変数だけでは、目的変数にあまり影響を及ぼさない場合であっても、その交互作用によっては目的変数に対して思わぬ大きな影響を及ぼすことがある。交互作用を理解することは、機械学習モデルを理解するのに重要であるが、これまでのSHAP解析では、説明変数単体がアウトカムに与える影響と、説明変数同士の交互作用をまとめて評価していた。このため、どの説明変数が重要度かは分かっても、変数単体がアウトカムに影響を与えているのか、交互作用が影響を与えているのか分からない問題があった。
【方法】SHAP値の導出アルゴリズムを改良し、説明変数単体がアウトカムに与える影響と説明変数同士の交互作用を分離して導出するようにした。改良手法を九州大学病院の癌コホートデータ(N=29080)に適用し、どのような要因の組み合わせが癌発生リスクに寄与しているのかを解析した。
【結果】これまでのSHAP解析では、高齢者ほど肺癌の発症リスクが高く、血清ビリルビンが1.2mg/dlよりも高いと肺癌の発症リスクが減るとの結果が得られていた。提案手法による解析で、ビリルビン高値による肺癌発症リスクの減少は、高齢者ほど特に効果が大きいことが分かった。