Japan Association for Medical Informatics

[3-C-1-07] 放射線医学領域の標準用語集を拡張する機械学習のパラメータの検討

張 洪健1、辻 真太朗2、Andrew Wen2、蒋 国謙2、曹 瀛丹1、小笠原 克彦1 (1. 北海道大学大学院 保健科学院, 2. Mayo Clinic College of Medicine, Department of Health Sciences Research)

Radiology Report, Radlex, word2vec, NER, technical term

【背景・目的】放射線読影レポートにおける標準化用語集を利用した辞書ベースの固有表現抽出は、抽出した複合語間の関連関係を表示できることなどの利点があるが、ルールベースや機械学習を用いた手法と比較すると、その精度は高いとは言えない。そこで、放射線領域で代表的な標準用語集・OntologyであるRadLexを使用した辞書を拡張するためには、機械学習であるWord2Vecを用いて、辞書拡張に対して最適な類似語を生成する必要がある。本研究では最適な類似語の生成に必要なWord2Vecの最適なアルゴリズムとパラメータを検討する。

【方法】本研究はオープンデータベースであるMIMIC-III内の放射線読影レポートのFindingsとImpressionの163,201件に対して、Word2Vecを適用し、辞書を拡張する語を抽出した。更に、Word2Vecが辞書拡張に対して最適な類似語を得られる様なアルゴリズムとパラメータを検討した。抽出した語における頻度が一番高い5つの被修飾語を入力し、出力の中でcosine距離が0.5以上の被修飾語を付く複合語の数が多くなると、アルゴリズムの効果がよいと定義した。検証したアルゴリズムは以下の3種類、CBOW(以下NS-CB)、 Skip-Gram(以下NS-SG)、 Skip-Gram(以下HS-SG)とした。次に、効果が最もよいアルゴリズムに対して、epoch数が3から9まで設定して、最適なepoch数を検討した。

【結果】出力の中で類似語の数は、NS-CBが全て0、NS-SGが最高10、最低0、HS-SGが最高13、最低1になった。アルゴリズムはHS-SGの場合で、epoch数が7になる時に、cosine距離の総和が極大値であった。そのため、アルゴリズムがHS-SGで、epoch数が7となる場合、最適な類似語が得られると考えられる。