一般社団法人 日本医療情報学会

[2-H-2-04] オープンデータを活用したCOVID-19罹患者における症状・経過のテキスト分析

*野口 怜1、鳥飼 幸太1、齋藤 勇一郎1 (1. 群馬大学医学部附属病院 システム統合センター)

COVID-19, Open data, Text analysis, Natural language processing, Case matrix


【緒言】新型コロナウイルス感染症(COVID-19)第2波への備えのためにも、罹患者のデータを分析し、感染対策に活用することが求められる。しかしながら、国内の公開情報は、自然言語でPDFなどの非構造化データとして記録され、各自治体で様式も異なり、分析が困難である。そこで著者は、国内罹患者に関するマシンリーダブルなデータ構築を目指す有志プロジェクト「SIGNATE COVID-19」に参加し、データ構築を支援した。本研究では、当該データを用いて、症状・経過のテキスト分析を行い、罹患者の傾向について洞察を得ることを目的とした。

【方法】SIGNATE COVID-19 Datasetを用いて、自由テキストの「症状・経過」データを対象として、自然言語処理エンジンIRIS NLP(InterSytems社)で単語分割した。その後、単語の出現頻度に基づき、罹患者背景(性別・年代など)と症状の傾向を可視化した。(「症状・経過」に記述のあった10,740例を対象)

【結果】全体では「発熱」が最頻出であり、5,803例と半数以上で見られた。続いて「倦怠感」が多く、2,276例と20%強であった。一方、男女別(男性5,880例、女性:4,756例)で見ると、女性では「咽頭痛」が男性よりも多く見られた(男性390例、女性458例)。年代別では、「倦怠感」は40~60代、「咽頭痛」「頭痛」「味覚障害」は、10~30代で多く見られた。また、テキストから抽出した体温データの平均値は38.0℃(SD:0.74)であった(体温記載のあった1,766例)。

【結言】自由テキスト内の症状を分析することで、性別や年代別での症状傾向の差異についての洞察を得た。今後はさらに発展させ、重症化と関連しうる症状・背景の分析や、過去罹患者の症状・背景との一致度を定量化することで感染疑い可能性を推論するAIの開発などにつなげていきたい。