Japan Association for Medical Informatics

[3-E-1-01] 詳細なアノテーション基準に基づく症例報告コーパスからの固有表現及び関係の抽出精度

*Daisaku Shibata1, Yoshimasa Kawazoe1, Emiko Shinohara1, Kiminori Shimamoto1 (1. 東京大学大学院 医学系研究科 医療AI開発学講座)

Information Extraction, Natural Language Processing, Machine Learning

【背景】診療において重要な情報である患者の症状や所見などはフリーテキストとしてのみ記録されるため、これら情報の利用を容易にするため構造化することが期待される。著者らはこれまで、診療テキストに対する網羅的な所見アノテーション基準を開発し、50種の固有表現と35種の関係を人手によりアノテートした症例報告コーパスを公開してきた。このアノテーションを精度良く再現することができれば、診療テキストをソースとする詳細な構造化データが得られる可能性がある。一方、このコーパスに出現する固有表現と関係の種類数は、先行研究で使用される他コーパスと比較して多いため、どの程度の精度でアノテーションを再現できるかが不明である。【目的】症例報告コーパスからの情報抽出を、固有表現抽出と関係抽出の2つのタスクとして定義し、機械学習による情報抽出の精度を評価する。【方法】前述の症例報告コーパスを利用した。1症例の文字数の平均は1,917、固有表現の平均は361個、関係の平均は347個であった。1症例は平均して12行で構成され、1行1文とした。1文あたりの文字数の平均は330であった。機械学習モデルは診療録テキストで事前学習済みのTransformer(BERT-base)をベースとし、固有表現抽出と関係抽出を同時に行うJointモデルを採用した。全2,194文のうち、BERTの最大入力長である512単語を超えた20文は除外した。【結果】5分割交差検証によるマイクロF1値の平均を評価指標とした。固有表現抽出の精度は87.2、関係抽出の精度は60.0であった。【考察】固有表現抽出は比較的高い精度を示したが、関係抽出は固有表現抽出と同程度の精度に至らなかった。固有表現抽出は多くの先行研究が報告されているが、関係抽出についてはその数が少ない。今後、精度の向上に向けた技術開発が必要と考える。