一般社団法人 日本医療情報学会

[2-J-3-04] 機械学習を用いた地域合計特殊出生率予測モデルの開発
-生態学的研究による試みと従来手法との比較検討-

*北島 巧海1、川中 普晴1 (1. 三重大学工学部・工学研究科)

Total Fertility Rate, Machine Learning, Public Health

1.目的
 我が国において少子化対策が喫緊の課題となっている今日,婚姻や出生に有利な環境を調査した研究は未だ乏しい状況である.とくに出生は死亡や疾患の発生に比べ機序が複雑であり,従来の公衆衛生学等で頻繁に用いられている回帰分析では説明力が不足する可能性がある.本研究では地域の交通の便や移住,住民の職業に焦点を当て,機械学習を用いて出生の生態学的横断研究を試みた.また,従来手法である重回帰分析と比較を行った.
2.方法
 e-STAT(総務省)よりデータセットの構築を行った.日本国内の全市町村を対象とし,災害等により情報が欠損している地域は解析から除外した(n=1729).目的変数はH29年度合計特殊出生率とし,説明変数には職業別就業者割合,完全失業率,可住地面積当たり人口密度,人口10万人当たり外国人人口,転入超過率,通勤・通学者の交通手段割合を用いた.モデル構築アルゴリズムは, XGBoostを用いた.交差検証の指標には調整済み決定係数を用いた.結果の解釈には変数の重要度,回帰係数を参照した.
3.結果と考察
 妥当性検証の結果,今回の手法および従来手法の調整済み決定係数は,それぞれ0.48,0.25であり,今回の手法が比較的説明力が高かった.また,最も高い重要度の変数は「通勤通学に要する交通手段が3種類以上の者の割合[%]」であり,従来手法においても有意に関連していた.しかしながら,今回の手法では目的変数の予測値の増減が決定木の分岐によって異なるのに対し,従来手法では回帰係数が負の関連を示していた.従来の重回帰分析では,未知の交互作用や非線形の関係を考慮できないことが原因の1つであると考えられる.
4.結論
 近年の機械学習手法を用いたモデルの構築が,従来手法に比べ比較的説明力が高いことが示唆された.本研究はあくまで横断データを用いた生態学的研究であり,今後は個票レベルの解析が必要となる.