[4-D-2-2] 深層学習に基づく検体検査の時系列データからのネフローゼ発症予測とその予測モデル解釈の試み
ネフローゼ症候群は血液中蛋白量が減少することにより生じる疾患であり、重症化すると腎不全・血栓症・感染症等を合併する危険性が存在するため早期発見が望ましい。そのため、発症予測を機械学習で行う場合、「早期かつ予測精度が高い手法であること」と「予測結果に対する解釈が可能な手法であること」が非常に重要となる。 本研究では検体検査による時系列データから機械学習を用いて解釈可能で早期かつ精度の高い発症予測モデルの構築を目指す。提案するネフローゼ発症予測モデルを構築するために、本研究では京都大学医学部附属病院を過去に受診した患者の匿名データセットから約2000名の検体検査12項目の時系列データを用いた。時系列情報を扱うために機械学習のモデルはシーケンシャルなデータのパターンを認識することが可能なRNN(Recurrent Neural Network)を採用し、予測精度の向上を図った。予測モデルの学習においては早期の予測が可能であるかを検証するために、ネフローゼ患者がネフローゼを発症した日付から1ヶ月以上前のデータのみを用いて予測を行った。またデータの前処理においては検体検査項目毎に分布や値域の差の影響を抑えるために正規化を行い、欠損値は0で補間した。 提案するRNNを用いたネフローゼ発症予測モデルとSVMを用いて構築した発症予測モデルの精度を5分割交差検証により評価したところ、SVMを用いたモデルに比べてRNNを用いた提案モデルの方が予測精度が向上することが示唆された。また、構築したモデルをLIME(Local Interpretable Model-agnostic Explainations)を用いて解釈をし、導出された複数の簡易予測モデルに対しての考察を医学的見地から行った。