[3-G-1-05] 臓器ごとの遺伝子発現データに対する継続学習技術の検討
Life-long Learning, Machine Learning, Genome Informatics
【目的】 医療費の削減と患者QoL向上を目指し,がんの早期発見および信頼性の高い治療効果予測を実現するためには,日進月歩の医療技術に追従し,かつ過去知識も兼ね備えた予測モデル構築が重要である。そこで,逐次的に複数のデータを学習した際に,一度学習したデータを再学習することなく,学習したすべてのデータに対して高精度な予測を実現するRun Once Memory Aware Synapses(RO-MAS)継続学習手法を提案する。
【方法】 RO-MAS手法では,当該データの学習により生成された予測モデルに対する出力の勾配を正則化係数に利用することで,当該データの知識を保存する。実験データは,GTExおよびTCGAにおけるRNA-Seqデータに対し,mskccによるパイプライン処理を行った4種の臓器に関するデータセットとした[1]。継続学習手法を用いない従来手法とRO-MAS手法を用いて4種のデータを逐次的に学習させ,がん細胞由来サンプルの予測モデルをそれぞれ生成した。なお,機械学習モデルはdeep neural networkとした。
【結果】 RO-MAS手法における予測精度は,4種のデータ全体で平均して88.33%となった。従来手法と比較して,14.26%高かった。
【考察】 RO-MAS手法において,4種のデータにおける各予測精度のうち最大で22.28%の差があった。最後に学習したデータと過去のデータにおいて発現している遺伝子の種類が大きく異なる場合に,正則化項による過去知識の保持が不十分になっていることが原因と考えられる。
【結論】 RO-MAS手法により,逐次的に複数のデータを学習した際に,一度学習したデータを再学習することなく全データで高精度な予測が可能であることを確認できた。
[1] Qingguo Wang et al.: bioRxiv 110734, 2017.
【方法】 RO-MAS手法では,当該データの学習により生成された予測モデルに対する出力の勾配を正則化係数に利用することで,当該データの知識を保存する。実験データは,GTExおよびTCGAにおけるRNA-Seqデータに対し,mskccによるパイプライン処理を行った4種の臓器に関するデータセットとした[1]。継続学習手法を用いない従来手法とRO-MAS手法を用いて4種のデータを逐次的に学習させ,がん細胞由来サンプルの予測モデルをそれぞれ生成した。なお,機械学習モデルはdeep neural networkとした。
【結果】 RO-MAS手法における予測精度は,4種のデータ全体で平均して88.33%となった。従来手法と比較して,14.26%高かった。
【考察】 RO-MAS手法において,4種のデータにおける各予測精度のうち最大で22.28%の差があった。最後に学習したデータと過去のデータにおいて発現している遺伝子の種類が大きく異なる場合に,正則化項による過去知識の保持が不十分になっていることが原因と考えられる。
【結論】 RO-MAS手法により,逐次的に複数のデータを学習した際に,一度学習したデータを再学習することなく全データで高精度な予測が可能であることを確認できた。
[1] Qingguo Wang et al.: bioRxiv 110734, 2017.