[3-P-4-05] 自然言語処理解析で見るCOVID-19業種別ガイドラインの現状
COVID-19, guidelines, natural language processing, SCDV
背景と目的 2021年6月1日現在、内閣官房が公開しているCOVID-19業種別ガイドラインの総数は23分野・200以上に及ぶ。これらのガイドラインは各業界団体が独自に作成しており、内容の質の検証は難しい。また、ガイドライン作成にあたっては、適切なエビデンスを参照すべきであるが、その労力をへらすことも重要な課題となる。 本研究では、新規ガイドライン作成時の参考となるよう、自然言語処理を活用し、既存ガイドライン間の内容の類似度や、文献の引用について分析を行った。 方法 ガイドライン間の内容の類似度については、「SCDVを用いて文書ベクトルを作成→コサイン類似度を指標に類似度を測る」方法と、「全ガイドラインに登場する単語を分布仮説に基づきクラスタリング→各クラスターを特徴量に類似ガイドラインを判定」の2つの手法で分析を行った。文献の引用については、スポーツ業界のガイドラインを対象に、参考文献の引用ネットワークを作成した。また、各ガイドラインの文献の引用法を、単語の出現頻度に基づき判定させた。 結果 ガイドライン間の内容の類似度について、文書ベクトルを作成し、可視化した。また、全ガイドラインに登場する単語のクラスタリングをし、一部ガイドラインについて分類を行った。文献の引用については、引用ネットワークを可視化し、被引用数の多い厚生労働省「新しい生活様式」と、ガイドラインの一部の対応を見た。 考察 異業種間のガイドラインに内容の類似度が高いものも存在し、詳細な活動形態に応じたガイドラインの集約化や新規ガイドライン作成に向けた提案の可能性が示唆される。その際、共通部分を抽出し、共通化・自動化して提示する事も考えうる。また、ガイドラインの質に影響を及ぼす、引用元文献に関して、学術論文は直接引用されることはほぼないことがわかり、根拠の提示や引用法についての統一化も必要である。