[2-F-3-03] アンメットメディカルニーズを含む文抽出モデルの構築
Unmet Medical Need, Sentence Classification, Sequential Sentence Classification
背景:アンメットメディカルニーズ(UMN)の特定と理解は,新規治療薬の開発やマーケティング戦略の立案において重要である.しかし,UMNの探索はアンケート調査が多く,実施コストが高いうえ,一部の疾患に偏っていることが多い.そこで本研究では,論文データを用いて網羅的かつ効率的にUMNに関する記述を含む文を抽出するモデルの開発を目指した.
方法:2013年1月から2022年12月の期間で,「unmet medical need」およびその関連語を含む文献の概要をPubMedから抽出した.次に,概要中の各文に対し,「病気や患者の性質への言及文」(性質文)および「既存治療法の課題への言及文」(治療文)に対してアノテーションを施し,データセットを作成した.モデルは,性質文と治療文それぞれについて,二値分類モデルを作成した.性質文や治療文が概要中の「背景」や「結論」セクションに偏在していたことから,文の位置情報を加味する目的で PubMedBERT と Bi-LSTMを組み合わせたモデルを採用した.
結果・考察:総概要数440件(5061文)のち,性質文は120文,治療文は214文であった.モデルは性質文,治療文いずれも高い分類性能を示した(F1-macro: 0.807, 0.887).次に,モデルの汎用性を評価する目的で,データセットをICD10大分類ごとに層別し,一つのICD10大分類をテストデータ,残りを学習データとしてモデルを作成した.結果,モデルの分類精度のデータセット依存性は小さいことがわかった.そのため,本モデルは特定のUMNに依存せず汎用的にUMNを抽出できると考えられる.
結論:特定疾患に限定的でない,汎用的なUMN抽出モデルの開発に成功した.
方法:2013年1月から2022年12月の期間で,「unmet medical need」およびその関連語を含む文献の概要をPubMedから抽出した.次に,概要中の各文に対し,「病気や患者の性質への言及文」(性質文)および「既存治療法の課題への言及文」(治療文)に対してアノテーションを施し,データセットを作成した.モデルは,性質文と治療文それぞれについて,二値分類モデルを作成した.性質文や治療文が概要中の「背景」や「結論」セクションに偏在していたことから,文の位置情報を加味する目的で PubMedBERT と Bi-LSTMを組み合わせたモデルを採用した.
結果・考察:総概要数440件(5061文)のち,性質文は120文,治療文は214文であった.モデルは性質文,治療文いずれも高い分類性能を示した(F1-macro: 0.807, 0.887).次に,モデルの汎用性を評価する目的で,データセットをICD10大分類ごとに層別し,一つのICD10大分類をテストデータ,残りを学習データとしてモデルを作成した.結果,モデルの分類精度のデータセット依存性は小さいことがわかった.そのため,本モデルは特定のUMNに依存せず汎用的にUMNを抽出できると考えられる.
結論:特定疾患に限定的でない,汎用的なUMN抽出モデルの開発に成功した.