[2-P-4-06] 合成語の語構造と意味分類
Medical compound words, Word structure analysis, semantic classification
医療記録データの中には、「甲状腺良性腫瘍」などの専門的な意味を持つ合成語が多く含まれ、また「2型糖尿病」と「Ⅱ型糖尿病」などの表記の揺れを含む同義語も多い。従って、これらに含まれる合成語を抽出するのは容易ではなく、専用の辞書を用いるのが一般的であるが、合成語を網羅的に登録した辞書の作成は困難である。 そこで、甲状腺(身体部位)」「良性(状態)」「腫瘍(疾患)」など合成語を構成する語(語構成要素)とこれらの意味、そして「(身体部位)(状態)(疾患)⇒病名」という結合パターンの規則が明らかになれば、合成語の抽出と分類が容易になると考え、実践医療用語辞書ComeJisyoSjis-2より合成語を選定し語構成解析に着手した。 なお、「語構成要素」の定義は、「合成語を医療の観点から意味的にまたは統語的に分割可能なすべての部分文字列」としている。従って,例えば合成語「オリーブ橋小脳萎縮症」では,「オリーブ」,「橋(キョウ)」,「小脳」,「オリーブ橋小脳」,「萎縮症」の5つの語構成要素から構成されるものとし、これらに「身体部位」と「病名」の意味ラベルを付与している。 例) 「オリーブ:身体部位」、「橋:身体部位」、「小脳:身体部位」、「オリーブ橋小脳:身体部位」、「萎縮症:病名」 加えて、対象となる合成語における語構成要素の出現頻度と、語頭および語末に出現する頻度を求めている。 今回、対象とした合成語は7,087語、これらを構成する語構成要素は6,633要素、付与した意味ラベルは41種である。 本発表では、その成果物であり、2022年3月に公開した『実践医療用語_語構成要素語彙試案表 Ver.2.0』、そして合成語を語構成要素に分割し、意味ラベルを付与するMecab用のユーザ辞書について紹介する。