Japan Association for Medical Informatics

[3-C-1-05] 句構造を取る症状表現を大規模Webテキストから取得する試み

和田 聖哉1、飯田 龍2、鳥澤 健太郎2、武田 理宏1、真鍋 史朗1、小西 正三1、松村 泰志1 (1. 大阪大学大学院医学系研究科医学専攻 情報統合医学講座医療情報学, 2. 情報通信研究機構)

Natural language processing, Machine learning, Symptom extraction

自動診断を始めとした診断支援システム開発には疾患名と症状が対応付けられた大規模な辞書が必要である。「咳嗽」「頭痛」といった単語レベルの症状辞書は存在するが、「膝が痛い」「耳鳴りが続く」といった句レベルの症状については、クラウドソーシングを用いて構築された患者表現辞書(MedNLP)内に散見される程度である。患者の自然な発語から疾患名を推定するには、それら句レベルの症状辞書が必須である。本研究では、大規模Webテキストに自然言語処理技術を用い、句レベルの症状表現を効率よく取得する手法を提案する。
 本研究では、「頭が痛い」のような、<名詞+助詞+述語>からなる表現を対象とする。<AでBが起こる>のように、述語とそれに係る項(AとBは名詞句)が2つの言語パタンをバイナリパタンと呼ぶ(以降、P)。大規模Webテキストに構文解析を行い、言語パタンPと付随して出現したA, Bの共起頻度(P, A, B)を求めたリストを準備した(約180億パタン)。 (P, A, B)のリストからAもしくはBに疾患名が入り、その後の助詞が「で」になるものを抽出した(疾患名はICD10対応標準病名マスター等から取得した約2万語を使用。全426,975パタン、最頻出は「発疹がひどい」で653,647)。取得した表現の名詞について、①疾患名もしくは症状、②身体部位に分け、それぞれに共起した「助詞+述語」を症状テンプレートとした。症状テンプレートを元に、①以前我々の提案した症状表現抽出手法で取得したリスト、②ICD10対応標準病名マスター修飾語テーブルを単語集合作成ツールに適用して取得した身体部位リストでそれぞれ拡張した。それらを(P, A, B)のリストと照合し、Web上で使われた表現かどうかを確認した。
 拡張した表現はWebテキスト上での使用頻度を確認した段階に留まる。実際に症状表現として妥当かどうか、人手評価を検討している。