Japan Association for Medical Informatics

[4-P1-2-02] 医薬品名の形態素解析アルゴリズムの構築

佐藤 弘康1、蝦名 勇樹1、真井 雄規1、島津 智行1、喜多 力1、田村 広志1、渡辺 浩明1 (1. JA北海道厚生連 帯広厚生病院)

Drug Information, Morphological Analysis, Natural Language Processing

【背景】近年、医療記録等のテキスト情報を用いた自然言語処理NLP等の研究が多く行われている。医療テキスト情報の中には医薬品名が存在することも多いが、その記載のゆらぎは大きく、機械的に医薬品を特定することは困難である。我々は、医療テキスト情報内の医薬品名情報から医薬品を特定するアルゴリズムの構築を計画した。本発表では、医薬品名に関する形態素辞書の開発を目的とし、承認医薬品の名称について医療薬学上の形態素への分解を試みたので報告する。

【方法】2018年12月9日に診療情報提供サービスのホームページよりダウンロードした約2万品目の承認医薬品リストを用いて、その医薬品名を形態素に分解するアルゴリズムをVisual Basic for Applicationにて構築し、Excelのユーザー定義関数として実装した。形態素としては、「一般名」、「ブランド名」、「規格量」、「濃度」、「剤型」、「屋号」等を設定した。構築アルゴリズムにより生成された形態素解析結果について、2名の薬剤師がランダム抽出した500品目を評価した。発見された不適切解析結果を基にアルゴリズムを改変し、これを繰り返すことにより解析精度を向上させた。

【結果】99.2%(496/500)の精度で医薬品名を適切に形態素解析できるアルゴリズムを構築した。当初は「ブシ」、「キナ」、「リン」等の文字数の短い一般名に誤判定する事例が確認されたが、除外規定等を設けることにより精度を向上した。

【考察】適切な判定ができなかった医薬品名には、臨床使用頻度の少ないものも含まれており、医療記録等に登場する医薬品名に適応する場合には、さらに高い精度になると思われる。今後は、今回生成したアルゴリズムを医療記録等のテキスト情報に適応し、抽出精度を評価するとともに、医薬品標準コードを一意に付与できるかどうかについても検討していく予定である。