機械学習を用いたCT画像報告書のテキスト情報からの入院予測

橋本 正弘

[4-D-1-3] 機械学習を用いたCT画像報告書のテキスト情報からの入院予測

^○橋本正弘^1,2, 泉啓介^2,3, 蔦谷雄一^2,4,5, 醍醐巴美^2,4,5, 若島雄大^2,4,5, 土井健太郎^2,4,6, 岩井祐樹^2,4,6, 洪繁^2,4, 陣崎雅弘^1,2 (1.慶應義塾大学医学部放射線科学（診断）, 2.慶應義塾大学メディカルAIセンター, 3.慶應義塾大学医学部内科学（リウマチ・膠原病）, 4.慶應義塾大学医学部坂口光洋記念講座（システム医学）, 5.株式会社富士通ソフトウェアテクノロジーズ, 6.富士通株式会社)

背景画像検査報告書の未参照により、治療が遅れるという問題が複数報告されている。これに対し報告書の未読・既読管理を行っているが、膨大な未読画像報告書に対処しなければならず、必ずしも迅速に対処が行えていないという課題がある。目的未読報告書に対処すべき優先順位をつけるため、機械学習を用いて検査報告書の内容から臨床的な重要度として利用できる指標の開発を目的とした。方法倫理委員会の承認を得て、2012年1月から2017年6月までに慶應義塾大学病院で撮影された外来のCT画像報告書を対象に、年齢、性別、検査目的および診断を入力情報として検査後90日以内に入院オーダーが出されたか否かを予測するモデルを構築した。形態素解析にMeCabと万病辞書、テキストのベクトル化はbag of words(BoW)とMedEX/J（NAIST MedNLP）を用いた。機械学習の手法はrandom forestを用い、入力値の処理方法を変えて複数の方法を評価した。評価は5 fold cross validationを用いた。結果使用した報告書は55296件で、その内入院オーダーが出されたのは8573件であった。最も精度が高かったのは検査目的と診断からそれぞれ2000次元のBoWベクトル、MedEX/Jの1000病名を使用する方法であった。Recallは0.842、Precisionは0.708、F値は0.769、ROC曲線のAUCは0.844であった。寄与の高かった因子として「術」、「術後」、「疑い」といった単語の他、年齢や「転移(MedEX/J)」が挙げられた考察MedEx/Jの病名情報を付加することで精度が向上しており、類義語を集約して、肯定・否定を考慮することが精度向上に寄与したと考えられる。結語機械学習を用いて検査報告書の内容からその後の入院予測を行った。COI開示研究費：富士通株式会社

The 38th Joint Conference on Medical Informatics

[4-D-1-3] 機械学習を用いたCT画像報告書のテキスト情報からの入院予測