オープンデータを活用したCOVID-19罹患者における症状・経過のテキスト分析

Rei Noguchi

[2-H-2-04] オープンデータを活用したCOVID-19罹患者における症状・経過のテキスト分析

*Rei Noguchi¹, Kota Torikai¹, Yuichiro Saito¹ (1. 群馬大学医学部附属病院システム統合センター)

COVID-19, Open data, Text analysis, Natural language processing, Case matrix

【緒言】新型コロナウイルス感染症（COVID-19）第2波への備えのためにも、罹患者のデータを分析し、感染対策に活用することが求められる。しかしながら、国内の公開情報は、自然言語でPDFなどの非構造化データとして記録され、各自治体で様式も異なり、分析が困難である。そこで著者は、国内罹患者に関するマシンリーダブルなデータ構築を目指す有志プロジェクト「SIGNATE COVID-19」に参加し、データ構築を支援した。本研究では、当該データを用いて、症状・経過のテキスト分析を行い、罹患者の傾向について洞察を得ることを目的とした。

【方法】SIGNATE COVID-19 Datasetを用いて、自由テキストの「症状・経過」データを対象として、自然言語処理エンジンIRIS NLP（InterSytems社）で単語分割した。その後、単語の出現頻度に基づき、罹患者背景（性別・年代など）と症状の傾向を可視化した。（「症状・経過」に記述のあった10,740例を対象）

【結果】全体では「発熱」が最頻出であり、5,803例と半数以上で見られた。続いて「倦怠感」が多く、2,276例と20%強であった。一方、男女別（男性5,880例、女性：4,756例）で見ると、女性では「咽頭痛」が男性よりも多く見られた（男性390例、女性458例）。年代別では、「倦怠感」は40~60代、「咽頭痛」「頭痛」「味覚障害」は、10~30代で多く見られた。また、テキストから抽出した体温データの平均値は38.0℃（SD:0.74）であった（体温記載のあった1,766例）。

【結言】自由テキスト内の症状を分析することで、性別や年代別での症状傾向の差異についての洞察を得た。今後はさらに発展させ、重症化と関連しうる症状・背景の分析や、過去罹患者の症状・背景との一致度を定量化することで感染疑い可能性を推論するAIの開発などにつなげていきたい。

The 40th Joint Conference on Medical Informatics / APAMI2020

[2-H-2-04] オープンデータを活用したCOVID-19罹患者における症状・経過のテキスト分析