一般社団法人 日本医療情報学会

[2-F-3-01] MRI検査依頼書を対象とした固有表現抽出器の開発

*谷川原 綾子1、タ キンキン2、上杉 正人3、安渡 大輔4、濱口 裕行5、遠藤 晃6 (1. 北海道科学大学保健医療学部, 2. 北海道大学大学院医学研究院, 3. 北海道情報大学医療情報学部, 4. 南東北がん陽子線治療センター, 5. 北海道大学病院放射線部, 6. 北海道大学病院医療情報企画部)

Magnetic Resonance Imaging, Named Entity Recognition, Natural Language Processing

目的:MRI検査依頼書より辞書ベースにて病名・症状に関する用語を高精度に抽出するための固有表現抽出器を開発することを目的とした。方法:MRI依頼書100件を収集した。MRI検査用固有表現抽出器(新手法)は、先行研究で提案された英語文書用Minimal Named-Entity Recognizerのアルゴリズムをベースとし、以下のフローで解析した。辞書には、病名・症状に関する語を収載する万病辞書を使用し、この辞書に収載されている語をMecabにてトークン化した後、次のリストを作成した:①1トークンのみ、②2トークンのみ、③3トークン以上の語、④冒頭2トークン。形態素解析器Mecabにて分かち書きされた依頼書のテキストに対して、まず①と②のそれぞれのリストから一致するトークンを抽出し、次に、③と④の2つのリストから一致するトークンを抽出した。抽出されたトークンについては文章冒頭からの開始/終了文字数を付与し、これを位置情報とした。①~③の複数のリストと一致したトークンについては、最長のトークンを採用した。抽出されたトークンは万病辞書を参照しICD-10コードが付与されているトークンを病名・症状に関する語と同定した。ベースラインは診療放射線技師1名によって作成され、新手法と従来法であるMecabと万病辞書を組合せた方法を用い、用語抽出とICD-10コード付与の精度を比較した。結果:用語抽出の精度は、従来法ではPrecision, Recall, F-measureは66.4%、81.3%、73.1%であり、新手法は91.6%、81.6%、86.3%であった。ベースラインと一致した抽出語に対して正しいICD-10コードが付与された割合は、従来法では94.6%、新手法は93.5%であった。結語:本研究にて開発した固有表現抽出器は、MRI検査依頼書の解析において有用なツールであった。