一般社団法人 日本医療情報学会

[4-F-2-02] 患者状態表現の病名交換コードへのマッピング

*柴田 大作1、嶋本 公徳1、篠原 恵美子1、河添 悦昌1 (1. 東京大学大学院医学系研究科)

Machine Learning, Natural Language Processing, Medical Informatics Computing

【背景】診療テキストから抽出した患者の状態表現を特定の医学用語集へ正規化することは知識ベースを利用する上で重要であるが、表現は略語や同義語などの場合があるため、文字列一致では十分な精度が得られない。また、機械学習では一般に用語集に収載される用語数はその数が多いため、これらを網羅した学習データの作成は困難である。加えて、予め用語集に収載されない表現もあり、通常の分類問題として扱う上での問題があるため、これらを考慮した手法が必要である。【目的】用語集として標準病名マスターを使用し、機械学習により表現を病名コードに正規化する。ここで、通常の分類法で正規化する場合と近傍法により正規化する場合の精度を比較する。【方法】学習データとして、マスターに収録されている病名表記の同義語を万病辞書により拡張したものを使用し、これを用いた機械学習モデルの精度を内挿性能とした。また症例報告コーパスから抽出した12,952個の表現に対して人手でコードを付与したデータを作成し、これに対する精度を外挿性能とした(対応するコードがない場合は未知語を意味するUNKを付与)。実験では、分類法と近傍法のそれぞれについて内挿性能、UNKを除外した外挿性能とUNKを考慮した外挿性能を評価した。また、訓練データ中の用語を辞書により拡張した場合の評価も行った。【結果】内挿評価のマイクロF1は分類法が0.63、近傍法が0.65であり、UNKを除外した外挿評価は分類が0.52、近傍法が0.55であった。また、UNKを考慮した外挿評価では、最近傍距離が8以上の場合の表現をUNKとした場合の精度が最も高く0.56であった。【考察】近傍法を用いた際の精度が分類法の精度よりも高く、本研究における近傍法の有効性が示唆された。また、訓練データを拡張した際に精度が向上したことから、学習データの増加による更なる精度改善が期待される。