Japan Association for Medical Informatics

[2-F-5-06] 製薬企業が有するコールセンターの問い合わせ記録を対象とした有害事象の固有表現抽出と類似度計算によるMedDRA/Jコーディング支援

*Masaharu Okamoto Okamoto1, Shoya Wada1, Kento Sugimoto1, Katsuki Okada1, Shozo Konishi1, Takuya Hara3, Jun Kato3, Genta Ito3, Yasushi Matsumura2, Toshihiro Takeda1 (1. 大阪大学大学院医学系研究科, 2. 国立病院機構大阪医療センター, 3. 塩野義製薬株式会社)

Natural language processing, Adverse event, MedDRA coding, Pharmacovigilance

【目的】製薬企業が有するコールセンターの問い合わせ記録(医療従事者や一般消費者からの問い合わせ)を対象とし,有害事象に関する記述部分の特定,MedDRAコードの付与などを,自然言語処理技術を適用させることで自動化する. 【方法】2021年1月から2022年3月に塩野義製薬株式会社で対応された問い合わせ記録のうち,有害事象を含む447文書に対して手作業でアノテーションを行い,症状に該当する文字列3017個,医薬品2726個を同定した.我々のモデルは2段階とし,まず固有表現抽出モデルにて対象文書から医薬品と症状表現を抽出し,次に医薬品-有害事象の関係抽出モデルを用いて症状表現が有害事象に該当するか否かを判定した.モデル構築において文書単位で学習/評価データを分割して5分割交差検証を行った. 【結果】医薬品の文字列抽出精度はF1値で96.1%と高精度であったが,有害事象のF1値は77.9%(再現率 71.2%,適合率 85.9%)にとどまった.抽出された有害事象表現とSentence-transformerを用いた埋め込み表現によるコサイン類似度類似度を組み合わせてMedDRA/Jコードの提案(類似度スコア0.8以上&上位最大10位まで)を行い,文書毎に再現率を計算したところ,平均再現率はLowest Level Termsコード基準で78.1%,Preferred Termsコード基準で81.2%を得た. 【考察・結論】今回,我々は問い合わせ記録からの有害事象表現抽出,MedDRAコード提示の自動化を試み,一定の精度を示すことができたことを報告する. 【倫理的配慮】使用した問い合わせ記録は塩野義製薬株式会社内で個人情報のマスク処理により匿名化され,個人を特定できない形式で取り扱われています.