Japan Association for Medical Informatics

[4-D-1-5] フリーテキスト形式の読影レポートにおける複合語パターンの特定

張 洪健1, 辻 真太朗2,3, Wen Andrew3, 曹 瀛丹1, Jiang Guoqian3, 小笠原 克彦2 (1.Graduate school of health science, Hokkaido University, 2.Faculty of Health Sciences, Hokkaido University, 3.Department of Health Sciences Research, Mayo Clinic)

自由な形式で記述される放射線読影レポート(以下,レポート)には,疾患の有無やその解剖学的な位置等を記載するために複数の専門用語が組み合わされて複合語として使用されるが,放射線科医による表現の違い等により一意に決めることは難しく,レポートから固有表現を抽出するのを妨げる要因の1つとなっている.また,先行研究では複合語の判断基準は読影医に委ねられており,どの程度複合語のパターンがレポートに存在するか明らかになっていない.そこで本研究では,英語の放射線読影レポートにおける複合語の実態を明らかにすることを目的として,医学分野の標準用語集における複合語の掲載状況を把握するとともに,用語集に収録されていない複合語の傾向を明らかにした.まず,データベースからランダムに抽出した英語の読影レポート400件を用いた.複合語の抽出には,医学分野の標準用語集であるSNOMED-CTが実装されているcTAKES により,読影レポートに関する標準用語集であるRadLexを統合して使用した.次にレポートに対して複合語のコーパスを作成し,ゴールデンスタンダードとした.複合語の注釈は,名詞句内で最も右側にある語を被修飾語,その左側にある語を修飾語として考えられる全てのパターンの複合語をタグ付け,F値,適合率,再現率を求め,偽陰性となった複合語の構成語数と被修飾語を求めた.標準用語集のF値は,26.3% (適合率 45.5%, 再現率 18.5%)となった.撮像装置毎のF値は,CT(30.1%),X線(26.5%),PET(25.8%),MRI(22.3%)となった.また,偽陰性となった複合語は,多い順に3語(57.0%),2語(28.8%),4語(10.5%)で構成されていることが明らかになった.また,被修飾語で最も多用された語は順にuptake(592回),change(426回),disease(252回)であった.