[3-E-1-05] 医学文献マイニングにおける痛みに関する看護用語抽出の看護用語と一般語の比率の検討
Biomedical Literature Mining(BLM), Natural Language Processing(NLP), Word2vec, Nursing Terminology
【背景・目的】看護は医学の基礎実践科目であり、医療分野で重要な役割を果たしている。 看護関連の文献には、看護研究や疾病モニタリングなど、看護と健康に関する情報が大量に含まれている。Word2vecを用いて看護文献から痛みに関する用語のような知識を取得できれば、医療診断支援システムなどの応用の効果を改善できる。そこで、本研究では、看護領域でのWord2Vecモデルの看護用語の抽出効果が上昇することを目指し、看護と一般領域のデータの比率を変えることで、corpus内の看護領域のデータの比率の変化が、看護用語の抽出に対してどのような影響を与えるかを検討した。【方法】英語で記載された一般用語のBillion Wordデータ(以下、BW)と、PubMed Centralからの看護論文の英語抄録(以下、NP)を対象として前処理した後、BW:NPを0:10から10:0までの比率を変更させた。データサイズはほぼ同じの11のcorpusを生成し、Word2vecモデルに入力してモデルを構築した。単語ベクトル間のcos類似度([0,1]区間、1は同じ、0は異なることを示す)を利用して測定した。痛みに関する13の看護用語(例:phantom pain)を用い、比率が0:10のモデルに入力し、cos類似度が最も高い用語(amputees)を出力した。入力語と出力語をペアとして、他の10のモデルに入力し、類似度を計算して各モデルを比較した。【結果】データ比率はBW:NPが1:9のモデルで識別できるベアの数が最も多く(100%)、または類似度の平均値(0.630)は最も高かった。NPデータのみで訓練されたモデルよりも、BWとNP両方のデータで訓練されたモデルでのパフォーマンスが優れていた。