Japan Association for Medical Informatics

[4-F-1-OP26-4] 状態空間モデルと深層ニューラルネットワークによる検体検査結果の欠損値推定精度の比較

河添 悦昌1, 倉沢 央2, 岩井 聡1, 香川 璃奈1, 大江 和彦1 (1.東京大学大学院 医学系研究科 医療情報学分野, 2.日本電信電話株式会社)

【背景・目的】医療における時系列データの特徴として、測定間隔が不規則であること、同時に全項目が測定されないことが挙げられ、そのため生じる欠損値が時系列解析の上で問題となる。本研究は検体検査結果の欠損を精度よく推定することを目的とし、状態空間モデル(SSM)と2種類のニューラルネットワーク(NN)を用いた方法を比較する。
【方法】入院患者23,920人を対象とし、入院初日から28日目までの検体検査3項目(WBC、Hb、PLT)の結果を抽出し、23,920人分の3項目×28日のデータを得た。以下の方法による欠損値の推定精度を比較した。1) 状態空間モデル。 SSMは時系列を観測値と状態値に分けてモデル化し、観測値が欠損する場合にも同時点の状態の値から観測値を推定する。2) AutoEncoder(AE)。AEは入力と出力を同値にするよう学習するNNであり、入力にノイズを与えた場合もそれを復元することに着想を得て、時系列の欠損値推定に応用する。3) Convolution-Deconvolution(CD)。CDは1次元の入力に対して畳込みを繰り返し、同回数の逆畳み込みから入力を復元するように学習するNNである。評価においては、モデル構築後に非欠損値を1件ずつマスクして推論を行い、推論値と真値との誤差の絶対値を算出し比較した。
【結果】以下Hb系列の絶対誤差(単位はg/dL)を示す。平均値、中央値、最大値はそれぞれ、SSMが0.58、0.42、14.65、AEが0.67、0.52、14.35、CDが0.54、0.40、14.51であった。他の2つの系列においても、CDによる方法が他に比べ低い誤差を示す傾向にあった。
【考察】いずれの方法も平均値と中央値に乖離があり、いくつかの大きくはずれた値が平均値を上昇させていた。このことは、実際の利用に影響を及ぼす程度と思われ精度の改善が必要である。