[2-F-1-04] Discussion of solutions for issues in developing a prediction model for post-hospital sepsis using Anonymized Medical Data based on Next Generation Medical Infrastructure Law
Next Generation Medical Infrastructure Law, Anonymized Medical Data, Clinical decision support, Machine learning
■背景と目的
次世代医療基盤法に基づく匿名加工医療情報の活用が期待されている。しかし、その安全性と、AI活用などにおける有用性についての知見は少ない。本研究では、匿名加工医療情報の安全性を担保しながら機械学習モデルの開発を行い、プロセスの検証を行った。
■方法
千年カルテに登録された20の医療機関の2015〜2021年度のDPCを元にした表データを使用した。対象の入院時疾患はICD10におけるC00-D48 新生物<腫瘍>とし、入院後敗血症の発症を予測する機械学習モデルを開発し、予測結果と特徴重要度の評価を行った。
■結果
本研究グループが2020年度に発表した予測モデルと、本研究における予測モデルの比較を行った結果、本研究の精度が高い結果となった。
解析における認定事業者との電子メールのやり取りは100回近くに及んだ。
■考察
多施設の匿名加工医療情報を活用した研究では、これまで難しかった多施設間での比較や大規模な予測モデルの開発、希少疾患の分析への活用などの可能性が考えられる。
課題
・統計データの確認しかできないため、個別データを確認しながらの特徴量の分析ができない。
・解析プログラムのエラーをデバッグしながら確認ができない。
・プログラムによる出力内容の変更時には、承認が必要となりスピード感を持った解析が難しい。
課題の対策
・本番環境と同様の検証環境を用意し、予め研究の方針を立て設計する。
・データ集計や機械学習モデルを開発するテンプレートを提供する。
■結語
2020年度の研究と本研究の結果の比較から、多施設のデータを利用することにより、単一の医療機関のデータを用いた予測モデルよりも精度を向上できる可能性が示唆された。匿名加工医療情報のデータの安全性の担保とAI開発の進めやすさはトレードオフの関係があり、改善する施策の検討が必要である。
次世代医療基盤法に基づく匿名加工医療情報の活用が期待されている。しかし、その安全性と、AI活用などにおける有用性についての知見は少ない。本研究では、匿名加工医療情報の安全性を担保しながら機械学習モデルの開発を行い、プロセスの検証を行った。
■方法
千年カルテに登録された20の医療機関の2015〜2021年度のDPCを元にした表データを使用した。対象の入院時疾患はICD10におけるC00-D48 新生物<腫瘍>とし、入院後敗血症の発症を予測する機械学習モデルを開発し、予測結果と特徴重要度の評価を行った。
■結果
本研究グループが2020年度に発表した予測モデルと、本研究における予測モデルの比較を行った結果、本研究の精度が高い結果となった。
解析における認定事業者との電子メールのやり取りは100回近くに及んだ。
■考察
多施設の匿名加工医療情報を活用した研究では、これまで難しかった多施設間での比較や大規模な予測モデルの開発、希少疾患の分析への活用などの可能性が考えられる。
課題
・統計データの確認しかできないため、個別データを確認しながらの特徴量の分析ができない。
・解析プログラムのエラーをデバッグしながら確認ができない。
・プログラムによる出力内容の変更時には、承認が必要となりスピード感を持った解析が難しい。
課題の対策
・本番環境と同様の検証環境を用意し、予め研究の方針を立て設計する。
・データ集計や機械学習モデルを開発するテンプレートを提供する。
■結語
2020年度の研究と本研究の結果の比較から、多施設のデータを利用することにより、単一の医療機関のデータを用いた予測モデルよりも精度を向上できる可能性が示唆された。匿名加工医療情報のデータの安全性の担保とAI開発の進めやすさはトレードオフの関係があり、改善する施策の検討が必要である。