Japan Association for Medical Informatics

[2-P2-1-08] 実践医療用語の語構造に関する考察 -医療記録に含まれる合成語の妥当な細分割を目指して-

相良 かおる1、小野 正子1、山崎 誠2 (1. 西南女学院大学, 2. 国立国語研究所)

Medical compound words, Word structure analysis, Word component, Medical machine-readable documents

2001年、厚生労働省は、全国400床以上の6割に電子カルテシステムを導入するという目標を掲げた。

今後、医療記録データの自然言語処理を支援する辞書が必要になると考えた筆者等は、2004年より看護実践用語の収集を開始し、2008年には形態素解析器MeCabの辞書として利用可能で、かつ人間可読、すなわち人に有益な情報を付加した実践医療用語辞書ComeJisyoV1(登録語数30,146語)の無償公開を開始し、以後、随時更新を続け、2018年11月には登録語数75,831語のUTF版のComeJisyoUtf8-1を、2019年4月には、医師経過記録から抽出した用語を含む登録語数111,664語のShift_JIS版のComeJisyoSjis-1を公開している。

 当初、実践医療用語の実態が不明であり、語の単位認定が困難なことから、臨床経験を持つ看護師、管理栄養士、医師等が一つのまとまった語とした語を登録している。

その結果、本辞書には「末梢性神経血管性機能障害リスク状態」等の合成語が多く登録されている。これを国立国語研究所の形態素解析辞書UniDicにより短単位(=形態素に相当)に分割すると、「末梢|性|神経|血管|性|機能|障害|リスク|状態」と分割される。

 このように、本辞書の約11万の登録語には、多様な語種、そして複合語や臨時一語等の合成語が多く含まれる。

 筆者等は医療記録文書を解析するための網羅性の高い辞書の構築が困難であることから、登録語の語構造の解析に着手し、その結果を踏まえ、長単位の合成語「末梢性神経血管性機能障害リスク状態」を「末梢性|神経血管性|機能障害|リスク状態」のように意味的にまとまりのある小さな単位(中単位)に分ち書きする辞書の構築を目指している。

 本発表では、一般的な単語を含む合成語2000語の語構造と、中単位に分割するための辞書の構築について述べる。