アンメットメディカルニーズを含む文抽出モデルの構築

渡邊 崇

[2-F-3-03] アンメットメディカルニーズを含む文抽出モデルの構築

*渡邊崇¹、嘉村準弥²、溝上慧祐¹、任点²、磯村哲¹ (1. 小野薬品工業株式会社, 2. TIS株式会社)

Unmet Medical Need, Sentence Classification, Sequential Sentence Classification

背景：アンメットメディカルニーズ（UMN）の特定と理解は，新規治療薬の開発やマーケティング戦略の立案において重要である．しかし，UMNの探索はアンケート調査が多く，実施コストが高いうえ，一部の疾患に偏っていることが多い．そこで本研究では，論文データを用いて網羅的かつ効率的にUMNに関する記述を含む文を抽出するモデルの開発を目指した．
方法：2013年1月から2022年12月の期間で，「unmet medical need」およびその関連語を含む文献の概要をPubMedから抽出した．次に，概要中の各文に対し，「病気や患者の性質への言及文」（性質文）および「既存治療法の課題への言及文」（治療文）に対してアノテーションを施し，データセットを作成した．モデルは，性質文と治療文それぞれについて，二値分類モデルを作成した．性質文や治療文が概要中の「背景」や「結論」セクションに偏在していたことから，文の位置情報を加味する目的で PubMedBERT と Bi-LSTMを組み合わせたモデルを採用した．
結果・考察：総概要数440件（5061文）のち，性質文は120文，治療文は214文であった．モデルは性質文，治療文いずれも高い分類性能を示した（F1-macro: 0.807, 0.887）．次に，モデルの汎用性を評価する目的で，データセットをICD10大分類ごとに層別し，一つのICD10大分類をテストデータ，残りを学習データとしてモデルを作成した．結果，モデルの分類精度のデータセット依存性は小さいことがわかった．そのため，本モデルは特定のUMNに依存せず汎用的にUMNを抽出できると考えられる．
結論：特定疾患に限定的でない，汎用的なUMN抽出モデルの開発に成功した．

第43回医療情報学連合大会（第24回日本医療情報学会学術大会）

[2-F-3-03] アンメットメディカルニーズを含む文抽出モデルの構築