Japan Association for Medical Informatics

[3-C-1-03] 医学用語抽出のための文字列類似度

篠原 恵美子1、河添 悦昌1、今井 健2、大江 和彦3 (1. 東京大学大学院医学系研究科医療AI開発学講座, 2. 東京大学大学院医学系研究科疾患生命工学センター, 3. 東京大学大学院医学系研究科社会医学専攻医療情報学分野)

Natural Language Processing, String Similarity Metric, Medical Informatics Computing

【背景・目的】診療録の自由記述を利活用する際には、そこに現れる医学用語の抽出が有用である。しかし自由記述は表記揺れを含むため、対応する用語が定義されているはずの医学用語集であっても、完全一致検索ではその用語が得られない場合がある。また、医学用語集として利用可能なリソースは管理者や目的がそれぞれ異なるため、カバーする異表記のバリエーションがリソースによってさまざまであり、用語集側で自然言語処理を目的として表記揺れをすべて吸収するのは現実的ではない。
この課題の解決策として類似文字列検索が挙げられるが、編集距離では文字の意味を考慮できず、機械学習では教師データの用意が困難である。本研究ではこれらの問題点を克服する文字列類似度指標を提案する。

【方法・結果】提案する文字列類似度は、文字を2段階で正規化し、その結果を用いるものである。正規化はユニコード正規化を拡張したもので、文字ごとに定義した変換規則を再帰的に適用する。変換規則はユニコード正規化で用いられるものに異体字や長音記号などの規則を追加し、ユニコード正規化のcanonical formに近い規則集合を適用したものを第一段階、全規則を適用したものを第二段階とする。2つの文字列の類似度は、まず第二段階の結果を比較して合致しなければ0とし、合致した場合は第一段階の結果を比較し編集距離を拡張した文字列類似度を用いるものである。
評価として、標準病名マスターの索引テーブルの異字体区分が1または2(誤字/異字)、かつかな漢字区分が1(漢字文字列)の索引用語に対し、他の索引用語から最も類似度の高い用語を検索したとき、その対応用語コードが同一であるかを調査した。その結果、4384件のうち4374件に対し同一対応用語コードが得られ、誤りの原因は9件が変換規則の不足、2件がマスターに定義された用語の曖昧性であった。