Japan Association for Medical Informatics

[3-P-4-06] 希少・難治性疾患を対象とした症例報告テキストコーパスの構築

*Yoshimasa Kawazoe1, Emiko Shinohara1 (1. 東京大学大学院 医学系研究科 医療AI開発学講座)

Rare Disease, Text Corpus, Phenotyping, Natural Language Processing

【背景・目的】希少・難治性疾患は臨床から得られる表現型と、ゲノム解析から得られる遺伝型とをあわせて確定診断される。表現型は患者の特質や状態であり、医療者により観察されるものはカルテに自由記載されることが多い。この表現型を自動で抽出できれば、診断支援や症例コホートの開発に役立つと期待されるが、その技術開発にテキストコーパスを必要とする。著者らはこれまで、指定難病の症例報告に対し50種の固有表現と35種の関係により表現型を網羅的にアノテートする基準を開発しコーパスを公開してきた。本稿ではこのコーパス構築の詳細について述べる。【方法】指定難病333疾患のうちJ-STAGEで得られた151疾患362症例報告を対象として、アノテーション基準の策定と実施を繰り返すことでコーパスを構築した。アノテーションの質の向上のために、コーパスの横断的検索やアノテートされた情報からテキストを構造化し表示するツールを開発するとともに、機械学習によるアノテーション再現結果も参考としながら構築を進めた。【結果・考察】症例報告の発行元は77臨床系学会誌に及び、内科・外科系のみならず、救急、周産期、小児、精神、リハビリなど多岐の診療科に渡るものであった。多種の表現型が存在したが、開発したアノテーション基準に従うことで、表現型を限定せず網羅的にアノテートできた。著作権処理を行い公開したコーパスは102疾患179症例報告であり、1報告あたりの平均文字数は1,917、固有表現数の平均は361、関係数の平均は347であった。すなわち、平均して5.3文字に固有表現が1個出現するものであり、一般内科疾患を対象とする先行研究(11.0文字)と比べても網羅性の高いコーパスであると考えられた。今後の課題として、アノテーションされた表現型を用語集に対応付けるための、対応関係のアノテーション基準を検討し実施することがあげられる。