Japan Association for Medical Informatics

[4-H-2-08] アンサンブル傾向スコアマッチング方法の開発と評価

*Yasutaka Hasegawa1, Hideyuki Ban1, Shuntaro Yui1, Shouji Negishi2, Tsutomu Kikuchi2 (1. (株)日立製作所 研究開発グループ, 2. 日立健康保険組合)

Propensity Score Matching, Causal Inference, Public Health Services

健康保険組合では疾病予防や医療費適正化のため,特定健診・特定保健指導を中心に保健事業を実施しており,その効果を分析してデータヘルスを推進することが求められている。しかしながら,観察データから保健事業の効果を分析する必要があるため,保健事業実施群と未実施群間の共変量を調整した分析が不可欠である。近年,共変量を調整する方法として,傾向スコアマッチングの利用が進んでいるが,保健事業実施群と未実施群間の共変量を精度よく揃える方法が課題となる。そこで本研究では、複数の機械学習手法を用いて,保健事業実施群と未実施群の共変量を高精度に揃えるアンサンブル傾向スコアマッチング方法を提案する。通常,傾向スコアの推定にはロジスティック回帰が用いられるが,最適な傾向スコア推定方法とは限らない。そこで提案方法では,複数の機械学習手法で推定した傾向スコアを組合せて,保健事業実施群と未実施群間の共変量の標準化差を最小化するように,実施群と未実施群のマッチングを行う,アンサンブル傾向スコアマッチング方法を開発した。尚,傾向スコアはロジスティック回帰,LASSO回帰,Elastic net,勾配ブースティング木,ニューラルネットを用いて推定した。提案方法の有効性を示すため,2008~2010年度の特定保健指導における積極的支援対象者13,242人(実施群3,574人,未実施群9,668人)のデータを用いて,非復元抽出の1対1マッチングを行い評価した。共変量は性・年齢と,血圧,体重,糖代謝,脂質,肝機能検査などの検査値と,喫煙の計18項目を用いた。各共変量の標準化差を算出して評価した結果,提案方法はロジスティック回帰で推定した傾向スコアによるマッチング方法に対して,全共変量における標準化差の平均を79.9%改善できることを確認した。この結果から,提案方法は共変量を高精度に揃えた効果分析に活用できる見通しを得た。