[2-F-3-05] 画像診断レポートの二次利用に向けた解剖学的区域に関する言語資源の構築
Radiology, Linguistic Resources, Standardization
【目的】
画像診断のレポートには大量の臨床情報が含まれており、その情報を構造化して抽出できれば臨床・研究においての二次利用が期待できる。抽出を行う場合、画像内の解剖学的区域に関する情報は異常のある場所を示す重要な意味を持つが、レポートには同じ区域でも「左肺上葉・左上葉S1+2」のように様々な表現で記述されており、そのまま抽出して二次利用するのは難しい。そこで、我々は、解剖学的区域に関する情報を標準化(マッピング)するために必要となる言語資源を構築を目指した。
【方法】
大阪大学医学部附属病院の画像診断レポートを利用した。先行研究で構築した深層学習モデルを適用し、レポートから解剖学区域、観察物、臨床所見などの情報要素をエンティティとして抽出した。解剖学区域の言語資源の構築にあたっては、何らかの標準コード集にマップすることが望ましい。我々は、日本放射線技術学会が構築している放射線領域の標準コード集のJJ1017コードの部位用語リストを基本とし、一部をカスタマイズして、コード集を作成した。次に、解剖学区域のエンティティとして抽出された用語を3名の医学生によってマッピングする作業を実施した。作業結果を複数の医師らによって確認した。
【結果】
画像診断レポート約37万件のレポートに深層学習モデルを適用し、15329個の解剖学区域のエンティティに関する用語を抽出した。JJ1017コードをベースにして、全215個となるコード化された解剖学的区域のマッピング作業を実施した。
【考察】
多くの解剖学的区域表現は医学生らの結果は高い一致率で問題なくマッピングすることが出来た。一方、「大動脈近傍」のような相対位置表現(「大動脈」と表現されているが、実際のレポートには大動脈の異常を言及していないような区域表現)については一致度が低く、用語だけでのマッピングが難しいという課題が明らかになった。
画像診断のレポートには大量の臨床情報が含まれており、その情報を構造化して抽出できれば臨床・研究においての二次利用が期待できる。抽出を行う場合、画像内の解剖学的区域に関する情報は異常のある場所を示す重要な意味を持つが、レポートには同じ区域でも「左肺上葉・左上葉S1+2」のように様々な表現で記述されており、そのまま抽出して二次利用するのは難しい。そこで、我々は、解剖学的区域に関する情報を標準化(マッピング)するために必要となる言語資源を構築を目指した。
【方法】
大阪大学医学部附属病院の画像診断レポートを利用した。先行研究で構築した深層学習モデルを適用し、レポートから解剖学区域、観察物、臨床所見などの情報要素をエンティティとして抽出した。解剖学区域の言語資源の構築にあたっては、何らかの標準コード集にマップすることが望ましい。我々は、日本放射線技術学会が構築している放射線領域の標準コード集のJJ1017コードの部位用語リストを基本とし、一部をカスタマイズして、コード集を作成した。次に、解剖学区域のエンティティとして抽出された用語を3名の医学生によってマッピングする作業を実施した。作業結果を複数の医師らによって確認した。
【結果】
画像診断レポート約37万件のレポートに深層学習モデルを適用し、15329個の解剖学区域のエンティティに関する用語を抽出した。JJ1017コードをベースにして、全215個となるコード化された解剖学的区域のマッピング作業を実施した。
【考察】
多くの解剖学的区域表現は医学生らの結果は高い一致率で問題なくマッピングすることが出来た。一方、「大動脈近傍」のような相対位置表現(「大動脈」と表現されているが、実際のレポートには大動脈の異常を言及していないような区域表現)については一致度が低く、用語だけでのマッピングが難しいという課題が明らかになった。