診療テキストの構造化に向けた症例報告コーパスからの情報抽出

柴田 大作

15:00 〜 15:20

[1J4-OS-13a-03] 診療テキストの構造化に向けた症例報告コーパスからの情報抽出

柴田大作¹、〇河添悦昌¹、篠原恵美子¹、嶋本公徳¹ (1. 東京大学大学院)

キーワード：情報抽出、自然言語処理、症例報告

【背景】希少・難治性疾患の研究や診断に必要な表現型は診療テキストに自由記載されるため、計算機による情報抽出が可能となれば様々な応用が期待される。本研究は、希少・難治性疾患の症例報告テキストからなるコーパスの構築と機械学習による情報抽出の精度を報告する。【方法】指定難病333疾患を対象としJ-STAGEで検索された151疾患362症例報告を材料としてコーパスを構築した。このうち、著作権処理を行い公開したコーパスを対象としてTransformerをベースとするモデルにより情報抽出精度を評価した。【結果】公開コーパスは102疾患179症例報告あり、70種の固有表現タグと35種の関係がアノテートされた。1症例報告の平均文字数は1,917、固有表現タグ数の平均は361、関係数の平均は347であった。5分割交差検証によるマイクロF1の平均は、固有表現抽出では0.931、関係抽出は0.826であった。【考察】本コーパスは複雑で密なアノテーションを有するが、先行研究と遜色ない精度で情報抽出された。今後の課題として、表現型を用語集に対応付けることと、実診療テキストでの精度評価を行うことがあげられる。

講演PDFパスワード認証
論文PDFの閲覧にはログインが必要です。参加登録者の方は「参加者用ログイン」画面からログインしてください。あるいは論文PDF閲覧用のパスワードを以下にご入力ください。

講演情報

[1J4-OS-13a] 医療言語処理の拡張と連携(1/2)

[1J4-OS-13a-03] 診療テキストの構造化に向けた症例報告コーパスからの情報抽出

パスワード