Japan Association for Medical Informatics

[3-D-2-02] 病名を表す合成語の語構成解析

*Kaoru Sagara1 (1. 西南女学院大学)

Medical compound words, End-of-word frequency research, Disease names


医療記録データの中には、「甲状腺良性腫瘍」などの専門的な意味を持つ合成語が多く含まれ、また「2型糖尿病」と「Ⅱ型糖尿病」などの表記の揺れを含む同義語も多い。従って、これらに含まれる合成語を抽出するのは容易ではなく、専用の辞書を用いるのが一般的であるが、合成語を網羅的に登録した辞書の作成は困難である。

筆者は、「甲状腺(身体部位)」「良性(状態)」「腫瘍(疾患)」など合成語を構成する語(語構成要素)とこれらの意味、そして「(身体部位)(状態)(疾患)⇒病名」という結合パターンの規則が明らかになれば、合成語の抽出と分類が容易になると考え、実践医療用語辞書ComeJisyoSjis-2より合成語を選定し語構成解析に着手している。

本発表では、病名を表す合成語の意味的な結合パターンについて述べる。具体的には、ICD10対応標準病名マスター(病名マスター)に登録されている合成語を対象に、短単位自動解析用辞書UniDicにより、短単位に分割した後、付与された品詞情報を基に機械的に連結する。次いで人手により意味的な単位にまとめ、語構成要素列を求める。そして、各語構成要素に意味ラベルを付与する。

例えば「下腿骨骨折」からは①「下腿骨(身体部位)/骨折(疾患)」を、「転移性骨折」からは②「転移性(病因)/骨折(疾患)」を求める。

これらを利用することで、病名マスターに未登録の「下腿骨折」は、「下腿(身体部位)/骨折(疾患)」により、①と同じ種類の病名であると推測できる。同様に「外傷性骨折」は、「外傷性(病因)/骨折(疾患)」により②と同じ種類の病名であると推測できる。

今回合成語5,460語より525種類の意味ラベル列が得られ、3,826語の語構成要素と115種類の意味ラベルが得られた。

今後、医療記録データをこれら語構成要素の単位で分かち書きし、意味ラベルを付与する辞書を作成し、公開する予定である。