Japan Association for Medical Informatics

[2-H-2-01] 辞書構築の自動化を目指したカルテ記載の形態素解析における未知語の出現分析

*Risa Sakurai1, Tadamasa Takemura2, Tsuyoshi Yamamoto2,3, Nobuhiro Itazu1, Kanayo Ueda2,3, Haruhiko Hiramatsu1,3 (1. 国立循環器病研究センター情報統括部, 2. 兵庫県立大学大学院応用情報科学研究科, 3. 国立循環器病研究センター医療情報部)

Natural Language Processing, Unknown Word, SOAP


昨今、医療データが蓄積されるに伴い、カルテ記載や放射線読影レポートなど、テキストデータも多く蓄積されつつある。これらのテキストデータを二次利用したり、機械学習等を用いてシステム構築に利用する場合は、まず形態素解析を行う必要がある。形態素解析は、文を構成する要素である形態素に分類する解析処理であり、用語に対して品詞等が付与される辞書ファイルと形態素解析そのもののアルゴリズムによって精度が決まる。しかしながら、医療現場において使用される用語は専門性が高く、また日々新しい用語が用いられているため、辞書の更新が困難であるという現状がある。一方で、形態素解析においては辞書に無い用語をどのように同定するか、という課題があり、多くの形態素解析では「未知語」として辞書に存在しない文字列を同定することが報告されている。また、一般辞書のみを搭載した形態素解析器を用いてカルテ記載などの医療文章を解析した場合、正確な形態素解析結果は期待できないが、医療用語辞書を搭載することでより正確になることが期待される。
したがって本研究では、カルテ記載に対して形態素解析を行い、未知語の出現状況について分析を行う。具体的には、「未知語」として同定された文字列が「用語」として同定できるか分析を行う。また、この同定された文字列が実際にどのような用法で利用されているのか分析する。また、未知語として同定された文字列の出現頻度や利用された患者の病名情報などから、医療用語として利用可能かについての分析を行う。
これにより、未知語として同定された文字列が医療用語として利用可能かどうかの判断が可能となり、カルテ記載を対象とした形態素解析用の医療用語辞書の自動構築の可能性を示すことができる。