Japan Association for Medical Informatics

[2-F-5-02] 大規模言語モデルとグラフを用いた医学論文と知識DBからの抗がん剤の治療効果予測因子抽出

*Shunsuke Hidaka1, Yasuaki Nakamura1, Wataru Takeuchi1 (1. 株式会社日立製作所)

Large Language Model, Generative AI, Graph, Precision Medicine, Predictive Factor

【目的】現在の抗がん剤治療は、事前の治療効果予測が難しく、必ずしも各患者に最適な治療が選択されていないことが課題である。医学論文や知識DBには治療効果予測因子に関する膨大な知識が集積されているが、人手で全知識を扱うことは困難である。そこで、本研究では、治療効果予測因子の知識を自動獲得する手法として、(1)大規模言語モデル(LLM)を用いた医学文献からの予測因子抽出に基づく手法と、(2)知識DBから構築したグラフに基づく手法を開発し、治療効果予測における寄与を評価した。
【方法】(1)LLMに基づく手法では、GPT-4を用いて医学論文の抄録から予測因子を抽出し、文献数を因子重要度として算出した他、予測因子に関するエビデンス要約を実施した。(2)グラフに基づく手法では、公開知識DBを元に3種のノード(薬剤、疾患、遺伝子)と3種のエッジ(薬剤-遺伝子、遺伝子-遺伝子、遺伝子-疾患)からなるグラフを構築し、ノード次数を因子重要度として算出した。性能検証としては、公開DBに登録されている680個のがん細胞株に対するEGFR-TKIの治療効果予測における寄与を評価した。治療効果予測には重み付き因果木を使用し、提案手法で算出した因子重要度を特徴量の重み付けに使用した。
【結果】10分割交差検証の結果、治療効果(対数IC50)の予測誤差(RMSE)は、重み付けがない場合と比べて、重み付けにより、LLMに基づく手法では最大6.4%、グラフに基づく手法では最大6.8%改善した。
【考察・結論】以上より、提案手法による予測因子の重要度算出により、治療効果予測精度が改善することを確認した。また、LLMによるエビデンス要約は、予測における説明性の向上に寄与すると考えられた。今後は、LLMに基づく手法とグラフに基づく手法の統合が課題となる。
【倫理的配慮】本研究では公開データのみを使用した。