[4-J-4-04] 文埋め込みに基づく日米の医薬品添付文書の文書マッチングの評価
Drug labels, sentence embedding, large language model, machine learning
【背景】日本の医薬品を海外の国際的な統制用語集にマッピングし、ナレッジグラフに連結することで様々な臨床判断支援の適用や医薬品に関する情報を取得する能力を獲得することが期待される。そこで、日米の医薬品の添付文書をSentence Embeddingを用いてマッチングし、その結果から日本の医薬品コードとRxNormの概念を紐付け、日本の医薬品をナレッジグラフに接続することを着想した。 【方法】XML形式で提供されているPMDA添付文書、DailyMedl添付文書から医薬品の成分に関する記述があるセクションとして「有効成分に関する理化学的知見」と対応するDESCRIPTION(以下DESC)、「薬効薬理・薬物動態」と対応するPHARMACOLOGY(以下PHRM)から文章を抽出した。PMDA添付文書、DailyMedの文書はDeepLで翻訳し英語・日本語の文章を交差して生成した。BoW、LaBSEモデルを構築し、MRR、Recal@K、inTop@Kによる評価を行った。 【結果】いずれの部分・向きでのマッチングでもLaBSE(128Token)が最も高い性能を示し、LaBSE(512Token)、BoWが続く形となった。最も高い性能が出たのは、DESCを用いてDailyMedからPMDAを検索した場合のLaBSE(128Token)であった。 【考察】LaBSEでは512Tokenより128 Tokenの方が、PHARよりDESCの方が性能がよい傾向があり、DESCの前半部分にマッチングに重要な情報が集約される可能性が示唆された。一意に特定する性能はまだ低いため、医薬品を一意に特定することに貢献する情報と場所を再検討し、Large Language ModelをFine-Tuningした上で再検討をしたい。