一般社団法人 日本医療情報学会

[2-F-3-04] 上位概念を活用した治験適格基準文分類手法の検討

*城戸 悠太郎1、中村 泰明1、大瀧 洋子1、木戸 邦彦1、竹内 渉1 (1. 株式会社日立製作所 研究開発グループ)

Ontology, Supervised Learning, Eligibility Criteria, Natural Language Processing

【背景と目的】 治験の成功率向上には,被験者を定める適格基準の適切な設計が重要である。そのため,治験計画者は先行治験の適格基準情報を収集し,治療歴,検査結果,診断歴などの内容別に分類して薬効が見込める適格基準を設計する。しかし,適格基準は自然文で書かれるため,人手での分類に多くの労力が掛かる。そこで本研究では,この労力を低減するため適格基準の内容別自動分類技術を開発した。 【方法】 自動分類の従来手法として,適格基準中の医学用語とシソーラスを用いて医学用語の表記揺れを標準化して得られる見出し語を特徴量とした機械学習分類手法がある。しかし,この従来手法では,標準化後も出現頻度が低い見出し語は十分に学習できないという問題があった。そこで本研究では,見出し語をその上位概念にまとめることで出現頻度の高い単語として学習する手法を提案した。具体的には,シソーラスOMOP CDM Vocabularyで標準化を行うCriteria2Queryを用いて適格基準より見出し語を抽出し,同シソーラスが持つ各見出し語の上位概念を加えて特徴量とした。分類モデルは,治療歴などの各内容への該否を目的変数として、XGBoostを用いて上記特徴量を学習し作成する。評価のため,従来法と提案法それぞれについて,多発性骨髄腫に関する治験の適格基準文1020文を学習し,テストデータ124文を用いてF1-scoreを求め,比較した。 【結果】 提案法では従来法に比べ,治療歴,検査結果,診断歴の各項目に関して,それぞれF1-scoreが20.6%(50.0%から70.6%),11.0%(71.4%から82.4%),31.4%(51.3%から82.7%)向上した。 【結論】 提案法による治験適格基準の自動分類性能の向上を確認し,治験適格基準の設計を支援できる見込みを得た。