Japan Association for Medical Informatics

[3-C-1-06] 機械学習を用いた画像診断レポートからの情報抽出

杉本 賢人1、和田 聖哉1、山畑 飛鳥1、武田 理宏1、真鍋 史朗1、松村 泰志1 (1. 大阪大学大学院 医学系研究科)

Natural Language Processing, Information extraction, Radiology Information Systems

【背景と目的】画像診断レポートには放射線医が記述した診断における重要な情報が記述されており,この情報は,臨床研究や診断支援システムなど様々な分野での活用が期待されている.二次利用のためには,レポートから必要な情報を抽出して構造化する必要がある.しかし,抽出する情報の対象は自明ではなく,また,定義したとしても,フリーテキスト形式のレポートからの正確な情報抽出は難しい.我々は二次利用に向けて,まず,画像診断レポートの「情報モデル」を定義し,必要な構成要素を整理した.また,機械学習を用いて,レポートから各構成要素の対象を抽出した.

【方法】まず,複数の医師・放射線検査技師で議論し,画像診断レポートの所見に記述された文章から,重要な構成要素を網羅した「情報モデル」を定義した.次に,機械学習(双方向再帰ニューラルネット)を用いて,文章中の重要な構成要素を抽出するための分類器を構築した.本研究では,2016年から大阪大学医学部附属病院の画像診断レポートシステムに蓄積されている胸部単純CT画像の所見(44,383件)を利用した.データセットから,訓練用に500件,評価用に150件を無作為に抽出し,分類器の学習及び評価を行った.

【結果】画像診断レポートの「情報モデル」として,「臓器や部位に関する表現・観察物を示す表現・臓器の異常所見を示す表現・肯定/否定などの表現・観察物の特徴を示す表現・観察物のサイズを示す表現・観察物の変化状態を示す表現」の合計7つのクラスを定義した.次に,学習した分類器を用いて,それらの抽出精度を評価した.各クラスの平均のF1値は,0.936であり,高い精度でレポートから,定義した構成要素が抽出可能であることを示している.

【結語】二次利用に向けて,画像診断レポートの「情報モデル」を定義した.また,その構成要素を機械学習を用いて高精度で抽出した.