[3-C-1-7] UTF版実践医療用語辞書ComeJisyo1.0の作成
本発表では、Unicodeで正規化された医療情報の語分割用辞書UtfComeJisyo1.0の概要を述べる。 筆者等は、Windows環境においてShift_JISコードで入力された医療情報を語分割するために、2008年に形態素解析器MeCabのユーザ辞書として利用可能な実践医療用語辞書ComeJisyo(登録語数30,146語)を作成・公開し、以降随時更新し、2013年にComeJisyoV5-1(登録語数77,760語)を公開している。なお、「実践医療用語」とは、市販の医療用語辞書ではカバーされていない隠語や略語を含む医療現場で使われている実践的な医療用語を言う。 今回発表するUtfComeJisyoV5は、Utf-8(BOM無し)環境での医療情報、主として看護領域の文書の語分割を可能とする。 登録語は、ComeJisyoV5-1の登録語を対象にUnicodeのNFKC形式に正規化した75,089語を登録している。従って、半角カタカナ、全角英数字、そして機種依存文字は含まれない。また、属性として、ComeJisyoV5-1に倣い、以下の属性を付加している。 ・看護経過記録、プログレスノート、看護教育用模擬経過記録、模擬診療記録、医師経過記録における文書頻度 ・看護師、助産師、管理栄養士の国家試験問題文における出現の有無 ・看護師および管理栄養士養成校で採用する教科書の索引における出現状況 外国人受験者を考慮して2011年以降の看護師国家試験問題文に併記されている疾病名の英語