Japan Association for Medical Informatics

[4-H-1-02] Word2Vecを⽤いた⼤規模医療データの次元縮減とマッチドコホート研究の効率化

*Hiroki Matsui1, Hideo Yasunaga1 (1. 東京大学大学院医学系研究科臨床疫学・経済学教室)

Word2Vec, Matched cohort study, causal inference

【背景】マッチドコホート研究では、コホート内でマッチされたサブ集団において、マッチング因⼦以外の情報を調整することで、バイアスを補正した治療効果を推定できる。コホート全体で情報収集を⾏う必要がなく、少ない労⼒で臨床研究を実施できる。マッチング因⼦が多いほどより効率的な治療効果推定が可能であるものの、多次元情報を⽤いたマッチングは困難であるため、従来は⼀部の情報のみを用いてマッチを⾏っていた。我々はword2vec を⽤いた分散表現を⽤いて多次元情報を圧縮したマッチ(次元圧縮法)を⾏い、従来法と効率性を⽐較した。 【⽅法】厚生労働科学DPCデータ調査研究班データベースを⽤いて、データベースに含まれる情報の分散表現(k=200)を、Word2Vecを⽤いて学習した。分析例として、⼼不全患者に対する早期のリハビリテーション介⼊の効果⽐較を⾏った。対象期間中に退院した⼼不全症例(n=319581)を対象とし、⼊院後2⽇⽬のリハビリテーション開始群を曝露群、⼊院中死亡と退院時ADLを複合アウトカムとした。傾向スコアマッチングを2段階で⽤い、従来法と次元圧縮法の間で、コホート全体の効果量のずれ(bias)と信頼区間幅拡大のbootstrap信頼区間(B=600)を⽐較した。 【結果】15,998,963症例の⼊院レコードから分散表現を取得した。Biasは、従来法・次元圧縮法どちらでも測定されなかった。信頼区間幅は、従来法(0.015 (0.013 to 0.018))に⽐べ次元圧縮法(0.008 (0.006 to 0.009))で有意に狭くなった。 【結論】マッチドコホート研究 において、Word2Vecを⽤いた次元圧縮は、研究の効率を向上させることができる。