[3-I-2-08] グラフ表現学習を用いた教師なし学習による電子カルテデータ構造自動特徴抽出手法の開発
Machine learning, Unsupervised learning, SS-MIX2 standardized storage, Graph representation learning
医療情報データベースから特定の疾患概念に沿って患者の特徴を抽出するためには、人手による複雑な特徴設計とデータ処理を要する。格納されている情報をノードとエッジから構成されるグラフデータとして教師なしグラフ表現学習モデルへ入力し、自動で固定長のベクトルに変換できれば類似症例検索やクラスタリングに応用できる可能性がある。そこで本研究ではSS-MIX2標準化ストレージデータを対象として、入院中に記録された電子カルテデータからの特徴量抽出が自動化可能か検証を行った。東京大学医学部附属病院における匿名化SS-MIX2標準化ストレージを用い、入院日が2015、2016年である31679名、52667回の入院データを学習用、入院日が2017年である15417名、21763回の入院データを検証用とした。1回の入院データを1つのグラフに変換しGraph2Vecにより教師なし学習で分散表現に変換した。得られた固定長の分散表現の評価のため、入院中に記録された病名を予測可能かについて多層パーセプトロンを用いて評価した。入院ごとにICD10コードの大分類20項目の有無を予測するマルチラベル分類において、5分割交差検定を用いた学習データ、検証データに対する正解率(正解ラベル全てを正解したサンプル率)はそれぞれ0.888 ± 0.004、 0.760 ± 0.017であり、グラフから診断情報自体を削除した検証では0.634 ± 0.011、0.441 ± 0.011であった。検証データにおける予測性能低下は認められる一方、グラフ表現学習によってデータ特徴に基づいた入院エピソードの自動特徴抽出が達成されていると考えられた。今後グラフデータ構造、教師なし学習モデル構造の更なる検証により、医療情報データベースから自動でより精密な患者の特徴抽出が達成できる可能性が示唆された。