[4-F-1-01] パスウェイデータベースを利用したグラフ畳み込み深層学習による悪性腫瘍の診断分類性能の検討
Genetic Diagnosis, Neural Network, Cancer Diagnosis, Gene Expression, Graph Convolutional Network
【(1) 背景と目的】クリニカルシーケンスが医療現場で行われるようになりつつある。説明変数が高次元となるシーケンスデータの解釈には機械学習の利用が有用な一方で、膨大なサンプル数が必要になる問題点もある。本研究ではグラフ畳み込み深層学習(GCN)のモデル構築に外部のデータベースを活用することで分類性能の改善が見られるかを検証した。
【(2) 手法】The Cancer Genome Atlasよりデータを取得し、Kyoto Encyclopedia of Genes and Genomesを参照して癌関連遺伝子1835種のRNA発現量を説明変数として、症例の診断分類を行うタスクを設定した。Oncotreeにより正解ラベルの診断分類の粒度を揃えた。GCNはデータより構築する方法もあるが、本研究ではGenemaniaを参照して発現量の相関関係をグラフィカルモデルで表現した。GCNと、ロジスティック回帰、ランダムフォレスト、サポートベクターマシン、多層パーセプトロンでの分類性能を比較した。
【(3) 結果】GCNは他の機械学習手法と比較して診断分類の正答率向上は見られなかった。混同行列による評価では、各機械学習手法で共通して乳癌、子宮頸癌、軟部腫瘍では同一組織由来の異なる病型との誤分類が多く、胆管癌と肝細胞癌、虫垂癌と結腸癌では異なる組織間での誤分類が多く見られた。
【(4) 考察】GCNで分類性能の向上が見られなかった理由の一つとして、構築したグラフが局所構造を適切に表現できておらず、畳み込みが有効に作用しなかった可能性が考えられた。GCNの精度向上のためには、グラフ構築に用いるデータの質の改善も必要と考えられ、今後も更なる検討が必要である。
【(5) 結語】既存の知識データベースを利用した変数選択およびグラフィカルモデルを用いたGCNは、RNA発現量からの悪性腫瘍の診断分類性能を改善しなかった。
【(2) 手法】The Cancer Genome Atlasよりデータを取得し、Kyoto Encyclopedia of Genes and Genomesを参照して癌関連遺伝子1835種のRNA発現量を説明変数として、症例の診断分類を行うタスクを設定した。Oncotreeにより正解ラベルの診断分類の粒度を揃えた。GCNはデータより構築する方法もあるが、本研究ではGenemaniaを参照して発現量の相関関係をグラフィカルモデルで表現した。GCNと、ロジスティック回帰、ランダムフォレスト、サポートベクターマシン、多層パーセプトロンでの分類性能を比較した。
【(3) 結果】GCNは他の機械学習手法と比較して診断分類の正答率向上は見られなかった。混同行列による評価では、各機械学習手法で共通して乳癌、子宮頸癌、軟部腫瘍では同一組織由来の異なる病型との誤分類が多く、胆管癌と肝細胞癌、虫垂癌と結腸癌では異なる組織間での誤分類が多く見られた。
【(4) 考察】GCNで分類性能の向上が見られなかった理由の一つとして、構築したグラフが局所構造を適切に表現できておらず、畳み込みが有効に作用しなかった可能性が考えられた。GCNの精度向上のためには、グラフ構築に用いるデータの質の改善も必要と考えられ、今後も更なる検討が必要である。
【(5) 結語】既存の知識データベースを利用した変数選択およびグラフィカルモデルを用いたGCNは、RNA発現量からの悪性腫瘍の診断分類性能を改善しなかった。