行列因子分解を使用した個別患者ごとの疾病予測およびリレーショナルデータマイニング

住谷 有規

[3-G-3-04] 行列因子分解を使用した個別患者ごとの疾病予測およびリレーショナルデータマイニング

*住谷有規¹、中田和秀¹、松田敦義²、荒木賢二³ (1. 東京工業大学工学院, 2. 株式会社ログビー, 3. 宮崎大学医学部附属病院病院IR部)

Secondary use of EMR, Disease Prediction, Matrix Factorization, Data Mining

病院への電子カルテの導入が進み，蓄積されたビッグデータから意味のある情報を抽出し活用する「二次利用」が注目されている．一方で医師不足の顕在化により，医療の質の低下や医師の負担の増加が懸念されている．そこで電子カルテの二次利用による，1.新たに得られた知見の臨床への応用，2.患者が発症する疾病の予測・予防，が医師不足によって生じる諸問題への解決の一助となると考えられる．

本研究では行列因子分解（MF）を適用し，以上の課題に取り組む．MFは推薦システムやテキスト解析等に多く使用され，前者ではユーザーに適合するアイテムを提示する手法として，後者では単語の潜在意味解析を行う手法として知られている．本研究ではMFを患者-疾病行列（各患者が患った疾病が入力された行列）に適用し，1.患者ごとに各疾病の発症リスクを算出，2.患者および疾病の特徴表現の獲得および解析，3.患者の属性と疾病の関係性の分析，が可能になることを示す．MFの患者-疾病行列への適用に関する報告は少なく，特に上記1~3を同時に目指すのは初の試みとなる．

2008年〜2017年の間に宮崎大学医学部附属病院に来院した患者の属性，発症した疾病のデータを用いた数値実験により，当手法の有効性の検証を行った．各患者について発症リスクの高い疾病のランキングを出力し，患者が実際に患った疾病がどのように予測されたか，Top-k Accuracy（予測順位がトップkに入るデータの割合）等の指標を用いて評価した．また，獲得した特徴表現を用いて，クラスタリングや潜在意味解析等の分析を行った．

MFによる出力は，同患者属性によるランキング手法等よりも高精度であった．さらに獲得した特徴表現の分析を通し，膨大な電子カルテデータから応用可能な情報を抽出できていることを示した．以上より，医療の質の向上や現場の医師の負担軽減が可能になると期待できる．

第40回医療情報学連合大会（第21回日本医療情報学会学術大会）

[3-G-3-04] 行列因子分解を使用した個別患者ごとの疾病予測およびリレーショナルデータマイニング