自然言語処理解析で見るCOVID-19業種別ガイドラインの現状

Ryuhei Aoyama

[3-P-4-05] 自然言語処理解析で見るCOVID-19業種別ガイドラインの現状

*Ryuhei Aoyama^3,2, Yosuke Yamagishi⁴, Takanori Fujita^1,2 (1. 慶應義塾大学, 2. 世界経済フォーラム第四次産業革命日本センター, 3. 東京大学, 4. 倉敷中央病院)

COVID-19, guidelines, natural language processing, SCDV

背景と目的　2021年6月1日現在、内閣官房が公開しているCOVID-19業種別ガイドラインの総数は23分野・200以上に及ぶ。これらのガイドラインは各業界団体が独自に作成しており、内容の質の検証は難しい。また、ガイドライン作成にあたっては、適切なエビデンスを参照すべきであるが、その労力をへらすことも重要な課題となる。本研究では、新規ガイドライン作成時の参考となるよう、自然言語処理を活用し、既存ガイドライン間の内容の類似度や、文献の引用について分析を行った。方法　ガイドライン間の内容の類似度については、「SCDVを用いて文書ベクトルを作成→コサイン類似度を指標に類似度を測る」方法と、「全ガイドラインに登場する単語を分布仮説に基づきクラスタリング→各クラスターを特徴量に類似ガイドラインを判定」の２つの手法で分析を行った。文献の引用については、スポーツ業界のガイドラインを対象に、参考文献の引用ネットワークを作成した。また、各ガイドラインの文献の引用法を、単語の出現頻度に基づき判定させた。結果ガイドライン間の内容の類似度について、文書ベクトルを作成し、可視化した。また、全ガイドラインに登場する単語のクラスタリングをし、一部ガイドラインについて分類を行った。文献の引用については、引用ネットワークを可視化し、被引用数の多い厚生労働省「新しい生活様式」と、ガイドラインの一部の対応を見た。考察異業種間のガイドラインに内容の類似度が高いものも存在し、詳細な活動形態に応じたガイドラインの集約化や新規ガイドライン作成に向けた提案の可能性が示唆される。その際、共通部分を抽出し、共通化・自動化して提示する事も考えうる。また、ガイドラインの質に影響を及ぼす、引用元文献に関して、学術論文は直接引用されることはほぼないことがわかり、根拠の提示や引用法についての統一化も必要である。

The 41st Joint Conference on Medical Informatics

[3-P-4-05] 自然言語処理解析で見るCOVID-19業種別ガイドラインの現状