機械学習による予測に寄与した特徴量抽出のための要因分析技術

鈴木 麻由美

[4-E-2-OP28-1] 機械学習による予測に寄与した特徴量抽出のための要因分析技術

鈴木麻由美¹, 柴原琢磨¹, 村垣善浩² (1.株式会社日立製作所研究開発グループ, 2.東京女子医科大学先端生命医科学研究所先端工学外科学分野)

【目的】
近年、deep learningをはじめとする非線形な機械学習モデルにより、高精度な予測が可能になりつつある。しかし、非線形な機械学習モデルではモデルの構造が複雑なため、logistic regressionに代表される線形な機械学習モデルのようにパラメータから予測に利用された特徴量を提示することは不可能である。そこで、非線形な機械学習モデルにおいても予測に利用された特徴量を提示する要因分析技術を提案する。
【方法】
要因分析技術は、機械学習モデルをベイズ統計により事後的に解析する逆解析技術と、逆解析技術により算出した事後確率分布をJensen Shannon divergenceを用いて確率分布同士の差異が大きい特徴量を重要な特徴量として抽出する因子解析技術から構成した。機械学習モデルはdeep learningとし、交差検証により最適なモデルを決定した。なお、人工データおよび、Singhら(2002)による論文より取得した前立腺腫瘍患者と健常者の遺伝子発現データに対し要因分析技術を適用した。
【結果】
人工データにおいて、要因分析技術による抽出結果の上位10個が予め設定した予測に寄与する特徴量10個と一致した。遺伝子発現データにおいて、抽出結果の上位5個のうち4個は、論文では重要と報告されていないものの、前立腺以外の腫瘍との関連性が指摘されている遺伝子であった。
【考察】
遺伝子発現データの結果から、線形な機械学習モデルを用いた解析では発見できなかった特徴量を提示できたと考えられる。但し、臨床的な腫瘍との関連性の調査には、前向き研究が必要となる。
【結論】
要因分析技術により、非線形な機械学習モデルにおいて予測に利用された特徴量を提示可能であることが確認できた。今後、抽出された重要な特徴量から新たな臨床研究への応用が期待される。

The 37th Joint Conference on Medical Informatics

[4-E-2-OP28-1] 機械学習による予測に寄与した特徴量抽出のための要因分析技術