Japan Association for Medical Informatics

[4-G-4-03] 臨床テーブルデータと胸部X線画像を統合したツリー系機械学習モデルによる COVID-19 患者の予後予測

*Hina Kotoura1, Kohei Yamamoto2, Koki Horikawa1, Ryohei Takamoto3, Yuta Nonomiya4,5, Yuichiro Iwashita3, Kaori Kuriu1, Shoya Ishimaru3, Soichiro Nakako4,5, Hiroshi Okamura4,5, Masakazu Iwamura3, Koichi Kise3, Ayumi Shintani4 (1. 大阪市立大学 医学部, 2. 大阪府立大学 工学域, 3. 大阪公立大学 大学院情報学研究科, 4. 大阪公立大学 大学院医学研究科, 5. 大阪公立大学医学部附属病院)

Multimodal Machine Learning, Prognosis prediction, COVID-19, LightGBM, DenseNet

【背景】国内の COVID-19 の死者数のピークは流行の度に増加傾向にあり、診断時に死亡リスクの高い患者を同定することは重要である。先行研究では 、臨床情報と画像情報を同時に学習 させたneural network (以下、 NN とする) モデルにより COVID-19 患者の予後予測を行っており、ROC-AUC は 0.86 であった。一方、テーブルデータに対しては NN よりもツリー系モデルの方が上回るという報告がある。本研究では、 NN によって胸部X線画像を1次元に次元削減し、それを他の臨床情報と同等に扱うツリー系の予後予測モデルを構築し評価する 。
【方法】 Stony Brook University における 1313 例の COVID-19 患者公開データを用いた。DenseNet を用いて胸部 X 線画像のみによる全患者の予後予測を行い、その結果を臨床テーブルデータと結合させたデータに対して LightGBM (以下、 LGBM とする) による予後予測を行うモデル (以下、提案モデルとする) を作成した。また、テーブルデータにのみ LGBM を適用したモデルと、画像にのみ DenseNet を適用したモデルを作成し、先行研究と併せて提案モデルとの比較を行った。
【結果】提案モデル、テーブルデータのみのモデル、画像のみのモデルの院内死に対する f1 スコアはそれぞれ 0.59、0.58、0.25 であり、提案モデルのスコアが最も高かった。提案モデル、テーブルデータのみのモデル、画像のみのモデルの ROC-AUC はそれぞれ 0.91、0.93、0.55 であり、 テーブルデータのみのスコアが最も高く、先行研究の結果も上回った。提案モデルの変数重要度としては、画像が最も高かった。
【結論】 LGBM を使った場合、高い予測精度を実現することができ、テーブルデータが予測に大きく寄与することが示唆された。 一方、胸部X線画像の予測精度の改善余地について検討を要した。