[2-F-5-05] 診療録を用いた生成AIの医学的分類能力の検証とその課題
Generative AI, clinical trials, medical classification, electronic health records, accuracy evaluation
【目的】臨床研究の適格基準と除外基準を判別する模擬タスクを通じて、生成AIが診療録から医学的分類を正しく行えるかを検証し、生成AIの診療応用に関わる留意点を明らかにする。
【方法】大阪大学医学部附属病院に入院歴のある患者から、進行胃癌の診断・治療目的で入院した患者、造血幹細胞移植の既往がある患者、重症腎不全の患者、慢性心不全の急性増悪で入院した患者、コントロール不良な糖尿病を有する患者、重症の肺線維症・活動性間質性肺炎で入院した患者を各10例、計60症例の入院時診療録を入力データとして使用した。生成AIプロンプトでは適格基準(進行胃癌の存在、腎機能正常、血算値正常、呼吸機能正常)と除外基準(コントロール不良な感染症、コントロール不良な高血圧、心不全、末期肝硬変、重症腎不全、コントロール不良な糖尿病、重症肺線維症・活動性間質性肺炎、造血幹細胞移植既往、ステロイドの全身投与)の計14項目について、適合(Yes)、不適(No)、および特定不可(NS; not specified)の判定を行い、その判断根拠を同時に出力するように指示内容を構築した。生成AIにはAWSのClaude 2.1(東京リージョン)を利用した。
【結果】Yes/No/NSを区別した場合、14項目の平均精度は81.8±13.6%(標準偏差)であった。そのうち平均精度を下回ったのは、血算値正常、末期肝硬変、重症腎不全、造血幹細胞移植既往、ステロイドの全身投与であった。NoとNSを同一として扱いYes/Noの2分類で評価すると、平均精度は95.8±7.4%(標準偏差)を示した。
【考察・結論】本検証を通じて、NoとNSを明確に区別して生成AIに出力させることが難しい可能性があることが確認された。次報では、その判断根拠の出力を確認し、生成AI利用の留意点をさらに考察する。
【倫理的配慮】大阪大学医学部附属病院倫理審査委員会の審査を受け実施した(承認番号: 23477)。診療録の記載内容には目視確認で個人情報の伏せ字処理を行った。
【方法】大阪大学医学部附属病院に入院歴のある患者から、進行胃癌の診断・治療目的で入院した患者、造血幹細胞移植の既往がある患者、重症腎不全の患者、慢性心不全の急性増悪で入院した患者、コントロール不良な糖尿病を有する患者、重症の肺線維症・活動性間質性肺炎で入院した患者を各10例、計60症例の入院時診療録を入力データとして使用した。生成AIプロンプトでは適格基準(進行胃癌の存在、腎機能正常、血算値正常、呼吸機能正常)と除外基準(コントロール不良な感染症、コントロール不良な高血圧、心不全、末期肝硬変、重症腎不全、コントロール不良な糖尿病、重症肺線維症・活動性間質性肺炎、造血幹細胞移植既往、ステロイドの全身投与)の計14項目について、適合(Yes)、不適(No)、および特定不可(NS; not specified)の判定を行い、その判断根拠を同時に出力するように指示内容を構築した。生成AIにはAWSのClaude 2.1(東京リージョン)を利用した。
【結果】Yes/No/NSを区別した場合、14項目の平均精度は81.8±13.6%(標準偏差)であった。そのうち平均精度を下回ったのは、血算値正常、末期肝硬変、重症腎不全、造血幹細胞移植既往、ステロイドの全身投与であった。NoとNSを同一として扱いYes/Noの2分類で評価すると、平均精度は95.8±7.4%(標準偏差)を示した。
【考察・結論】本検証を通じて、NoとNSを明確に区別して生成AIに出力させることが難しい可能性があることが確認された。次報では、その判断根拠の出力を確認し、生成AI利用の留意点をさらに考察する。
【倫理的配慮】大阪大学医学部附属病院倫理審査委員会の審査を受け実施した(承認番号: 23477)。診療録の記載内容には目視確認で個人情報の伏せ字処理を行った。
