[3-P-3-03] NDBを用いたベイジアンネットワークによる糖尿病リスクの因果分析
Public health, Machine learning, Causal analysis, Bayesian network, Diabetes
糖尿病は完治までの時間が長く、国民医療費の増加への影響は社会問題となっている。この社会問題に対する取り組みとして、近年、特定健診やレセプトのデータを活用し、国民健康保険被保険者の健康課題を分析するとともに、効果的かつ効率的な保険事業を行うことが求められている。NDBオープンデータとして、特定健診やレセプトデータに関する都道府県別の統計データも公開されており、医療関係者以外でも健康課題を分析することが可能となっている。 本研究ではNDBオープンデータを活用し、ベイジアンネットワークを用いた糖尿病と生活習慣の因果グラフを構築する。これにより、地域の健康増進に向けた保険事業を支援するための知見を得ることを目的とする。本研究はNDBオープンデータの活用の可能性を広げることにも意義がある。 使用データは、特定健診のHbA1cの検査値および生活習慣に関連する質問票の都道府県別性年齢階級別分布のデータである。ベイジアンネットワークのための変数を設計するために、性年齢調整を行った糖尿病予備軍の割合、及び、質問票の選択肢別の割合を都道県別に集計し、各変数を割合の高低に基づいて離散化を行った。 ベイジアンネットワークの構造探索では、パラメータを変更することによって複数の因果グラフの候補を生成した。因果グラフの学習では、有向非巡回グラフ(DAG)の条件を満たすためにNO TEARSと呼ばれる損失関数を適用した。複数の因果グラフの条件付き確率表を生成したのち、学習で用いたデータと異なる年度のデータを未知データとした予測を行いAUCの指標が最も高くなる因果グラフを選抜した。さらに、文献等に基づいてエッジの調整を行い、最終的な因果グラフを得た。この因果グラフから、HbA1cが高い地域では、喫煙率の高さが原因となっていることが示唆された。