一般社団法人 日本医療情報学会

[3-C-1-02] 医療辞書自動作成システムの構築に向けた医療用語の用語性判定の試み

櫻井 理紗1、竹村 匡正2、平松 治彦1、上村 幸司1、山本 剛1,2、奈良崎 大士1,2、宍戸 稔聡1 (1. 国立循環器病研究センター, 2. 兵庫県立大学大学院応用情報科学研究科)

natural language processing, text data, web

昨今、医療機関には電子カルテシステムが導入され、医療データが蓄積されるに伴い、臨床研究や大規模データ分析に電子カルテ上に記載されたテキストデータを活用することが期待されている。これらカルテ記載情報を利用するために自然言語処理が行われるが、この自然言語処理については形態素解析器及び「辞書」と呼ばれる用語に対して品詞等が付与される電子ファイルが用いられる。しかし、医療分野等の専門性の高い文章においては、利用される用語の専門性が高くなり、また日々新しい用語が用いられる。その結果、一般的に準備されている辞書では文章の解析精度が担保できず、結果機械学習の適用などの医療テキストデータの二次利用は進んでいるとは言い難い。そのため、新たに出現した用語を自動的に辞書に追加する仕組みが必要である。
一方で、電子カルテのようにテキストデータが電子的に蓄積されることで、用語を自動的に抽出できる可能性がある。例えば、カルテ上でよく記載される単語(文字列)があった場合、これがカルテ上でどれくらい出現しているのか、また他の言語リソース(ウェブやオンラインジャーナルなど)上でも用いられているのか、という知識を利用することで、その単語を単語として抽出すること、すなわち「用語性」の判定を行うことができる可能性がある。
そこで本研究では、カルテ記載情報から、実際のウェブ上の情報を利用して医療用語の用語性の判定が可能かを検証することを目的とする。具体的には、電子カルテ記載に対して形態素解析器を用いて自然言語処理を行い、名詞、連接語および未知語の取得を行う。これら得られた用語をウェブ上の情報に対してAPIを活用し問い合せを行うことで、検索ヒット数、スニペット等の詳細情報等の取得を行う。得られた情報から用語性の判定が可能か検証を行うこととする。