Japan Association for Medical Informatics

[3-E-1-06] 医学文書を対象とした疾患症状関係抽出におけるゼロ照応の評価

*Shoya Wada1,2, Toshihiro Takeda2, Katsuki Okada1,2, Shirou Manabe2, Shozo Konishi2, Yasushi Matsumura3,2 (1. 大阪大学大学院医学系研究科 変革的医療情報システム開発学寄附講座, 2. 大阪大学大学院医学系研究科 医療情報学, 3. 国立病院機構大阪医療センター)

Natural Language Processing, Relation Extraction, Zero Anaphora

【背景】深層学習がもたらした自然言語処理の精度向上により,医学文書から自動的に情報を抽出する技術の実現が期待されている.しかしながら,疾患とそれに起因する症状関係を抽出する課題を考えた際に,従来の関係抽出フレームワークでは解決し難い問題が日本語では頻繁に出現する.それは,項の省略,代名詞や指示詞での言い換えを行う「照応」という現象であり,これを解決するには,文単位を超えて関係抽出を行う必要がある.今回,医学文書の自動疾患症状関係抽出器を構築することを目的として,省略された項の推定が必須となるゼロ照応がどの程度出現するのかを調査した.
【方法】日本語WikipediaにおいてICD-10コードが与えられている疾患記事とMSDマニュアルプロフェッショナル版(日本語)の記事から,それぞれ30項目を抽出して対象データとした.疾患症状関係については,対象疾患に起因する症状であることが記載表現のみで特定出来るものと定義した.また,そのパタンについて,1) 同一文中関係,2) 同一段落関係,3)見出し関係と細分類し集計した(このうち,ゼロ照応に該当するのは2及び3).
【結果】Wikipedia文書の対象文は全2,363文で,そのうち同一文中関係,同一段落関係,見出し関係はそれぞれ32,57,150文存在した.MSDマニュアルプロフェッショナル版の対象文は全2,757文で,疾患症状関係の細分類はそれぞれ40,58,190文であった.
【結語】日本語医学参考書として,WikipediaとMSDマニュアルプロフェッショナル版を対象に疾患症状関係の記載パタンを調査した.見出しに記載されている疾患がゼロ照応の対象となっている表現が最も多く,書式も考慮して関係抽出モデルへの入力をデザインする必要がある.