Japan Association for Medical Informatics

[4-D-1-6] Multi-Column Convolutional Neural Networks を用いたWeb文書に出現する患者の症状表現抽出、症状疾患関係認識

和田 聖哉1, 飯田 龍2, 鳥澤 健太郎2, 武田 理宏1, 真鍋 史朗1, 松村 泰志1 (1.大阪大学大学院医学系研究科 医療情報学, 2.情報通信研究機構)

【背景・目的】 本研究では、患者に症状を入力させ、その症状に基づいて疾患名を推定する診断支援システムの構築に必要な症状表現、疾患名と対応する症状表現の自動獲得手法を提案する。これまでに作成された医療用語辞書にはComejisyo(相良ら、2008)、万病辞書(荒牧ら、2017)があるが、これらは医療従事者用に作成されたものであり、患者が使用する一般的な症状表現に関して網羅性が低い。本研究では患者が日常的に使用する症状表現(所見等も含む)の候補をWeb文書から抽出し、その候補に対して①症状表現を表す表現か否かを分類する症状表現抽出、②疾患名とそれに起因する症状表現の対か否かを分類する疾患症状関係認識の2種類の問題を独立に解くことで症状表現、疾患と対応する症状表現の対の自動収集を行う。【方法】 ICD-10対応標準病名マスター等から25,916件の疾患名リストを作成し、質問応答システムWISDOM X (Mizunoら、2016)に、「[疾患名]が何を引き起こす」といった質問を入力して症状表現候補とその候補が含まれる文を獲得する。次に名詞意味クラス(Kazamaら、2008)を用い、症状表現の含まれる可能性の高い候補のみを選別して約12万件の症状候補を得た。うち5万件をランダムに抽出し、症状表現抽出と疾患症状関係認識のそれぞれについて人手でアノテーションを行い学習・評価用データを作成した(7名のアノテータが従事)。さらに、Multi-Column Convolutional Neural Networks(Cireganら、2012)を用いた症状表現抽出器と疾患症状関係認識器を構築し、自動検出・自動認識の性能評価を行った。【結果】 本手法の症状表現抽出、疾患症状関係認識の性能はそれぞれF1値で0.937、0.876であった。新規の症状表現の抽出に関する評価結果はF1値で0.894あり、本手法が既存辞書に含まれない症状表現についても高い性能で表現を抽出できることを示している。