Japan Association for Medical Informatics

[4-D-1-4] 画像診断レポートから部位表現と所見表現の抽出手法の開発

杉本 賢人, 和田 聖哉, 島井 良重, 山畑 飛鳥, 武田 理宏, 真鍋 史朗, 松村 泰志 (大阪大学大学院医学系研究科 医療情報学)

【背景】 多くの画像診断レポートはフリーテキストで記載されデータの二次利用が困難である。画像診断レポートから部位と所見を抽出することができれば、臨床研究や診断支援システムへの利活用が期待できる。放射線レポートは多様な表現で記載されることが多く、単純なテキストマッチングによる抽出は難しい。このため、自然言語処理を用いた放射線レポートの解析が多く行われてきた。これまで、辞書ベースでの抽出手法が多く提案されているが、辞書ベースで放射線レポートに関する医学表現を全て網羅するのは困難である。また、放射線レポートには、同一の所見が書き手によって異なる表現で述べられることが多いため、それらを標準化して抽出する必要がある。【目的】 本研究では、画像診断レポートから医学表現を網羅的に抽出して、標準化された医学表現を獲得することを目的とする。【方法】 2000年から2015年に大阪大学医学部附属病院の画像診断レポートシステムに蓄積されている胸部単純X線画像の所見(285,155件)を対象とした。はじめに、画像診断レポートからランダムに1,000件を抽出して、これらに人手でアノテーションを行い、教師データを作成した。本研究では、「部位・所見・主辞(あり・疑い・なし等)」の医学表現を抽出することを目的とした。次に、双方向再帰ニューラルネットを用いて学習を行い、医学表現の抽出器を構築した。残りのレポートに関しても、学習した抽出器を用いて、医学表現の抽出を行った。【結果】 本手法により、3,660件の部位表現、5,189件の所見表現が抽出された。抽出した部位・所見は、複数の医師、放射線検査技師で議論し、臨床上、同一の部位や同一の所見を指していると考えられる表現を1つの表現にまとめた。その結果、22件の部位表現、36件の所見表現を得た。【総括】画像診断レポートから部位表現と所見表現を抽出し、その表現を整理することができた。