Japan Association for Medical Informatics

[4-F-1-02] 中国SNS(ウェイボー)における新型コロナウイルス関連単語のテキスト分析とセンチメント分析

*YINGDAN CAO1, Hongjian Zhang1, Katsuhiko Ogasawara1 (1. 北海道大学大学大学院保健科学院)

COVID-19, Text mining, Sentiment analysis, China, Weibo


【背景】新型コロナウィルス感染症の流行に伴い、世界中の人々はこの感染症に対する不安を解消するために、SNS(ソーシャル・ネットワーキング・サービス)を利用して情報の収集と伝達や交流を活発に行っている。しかし,SNSの問題点として,SNS上には誤った情報が広まりやすくなるが、その情報伝達に関する研究は少ない。本研究では、中国を対象として、新型コロナウイルス感染症に関するSNS情報収集を通して、時系列的なテキスト分析とセンチメント分析を行い、市民が関心を有する関連単語頻度を統計と感情ポイントを算出した。【方法】中国SNSでウェイボーを対象として、2020年1月から3月まで収集した。分析にはJiebaで中国語を形態素解析とTF-IDF法によって新型コロナウイルス関連単語頻度を統計解析し、ワードクラウドで新型コロナウイルス関連単語のワードクラウド図を作成した。SnowNLPでひとつずつウェイボーをセンチメント分析をによる感情ポイント(最小値:0(ネガティブ感情)、最大値:1(ポジティブ感情))を算出し、平均値を算出した。【結果】本研究の結果として3月のみの結果を示す。一ヶ月の21742件ウェイボーが抽出された。関連単語のワードクラウド図から、単語の重要度と出現頻度を得られた。統計解析した頻度の比較において、新型コロナウイルス関連単語頻度のトップ10は「疫情(疫病流行)(出現頻度:5568)、新冠(新型コロナ)(4746)、肺炎(肺炎)(4591)、美国(米国)(3623)、防控(予防)(3035)、中国(2693)、工作(仕事)(2566)、确诊(診断)(2363)、病例(症例)(2274),开学(始業)(2124)」の順で高かった。感情ポイントの分布は、平均値が0.643(標準偏差:0.356)であった。