Sparse feature selection for clustering and sample-wise distance, with application to geochemical data

上木 賢太; 日野 英逸

[MGI29-P03] Sparse feature selection for clustering and sample-wise distance, with application to geochemical data

*上木賢太¹、日野英逸² (1.東京大学地震研究所附属高エネルギー素粒子地球物理学研究センター、2.筑波大学システム情報工学研究科)

キーワード：中央海嶺玄武岩、機械学習、地球化学データ

個々の火山体や岩体からの複数サンプル、一つの岩石サンプル内での多点局所分析など、多くの地球化学データは、それぞれが高次元の組成データを持つ多数のサンプルからなる集合である。しかし、これまでの多くの地球化学研究は、せいぜい数元素間の関係性や、もしくは特定の数個の試料にのみ注目するといった、低次元空間で行われてきた。データの解析に関しても、端成分の化学組成など事前の情報を与えた手法が主体であった。岩石からプロセス情報を抽出するためには、多変量多サンプルからなる高次元データをそのまま取り扱うことが重要である。また、これまでの研究はデータの分布が持つ情報を有効に活用し切れていない。しかし、多数のデータがなすデータ分布の広がりや形状には、岩石生成過程での地球化学プロセスが反映されているはずである。多次元空間内でのデータの分布そのものを定量的に取り扱ったデータ駆動の研究を行うことで、これまでの研究よりもより多くの情報が岩石から抽出できることが期待される。このようなデータを取り扱うために、本研究では、粒子の各次元の観測値がなす「分布」を考え、分布間の距離を測ることでサンプルの特性を反映した比較を実現した。
分布の仮定をしない、ノンパラメトリックな方法で分布間距離を推定し、各特徴量に対応した「距離」を定義する。「要素距離」の重み付き和で全体の距離を定義し、この重みを用いてクラスタリングを行う。さらに重みにスパース制約を課して特徴選択することで、集合間の距離と、距離を特徴付ける量（本研究の場合は元素種や同位体比）を求めることが出来る。距離を特徴付ける量を求めることが出来ること、また、すべてのサンプルに、解析に使用するすべての元素の分析値がある必要がないということが本手法の利点である。
　岩石化学組成データベースpetdb (http://www.petdb.org)を利用して3988サンプル、最大49元素 (5同位体、10主要元素を含む)のMORBデータをコンパイルし、解析に使用した。空間分布を元に全地球のMORBを数クラスターに分析し、化学組成を比較した。空間変化を特徴付ける元素や、クラスター同士の距離を本手法を用いて求めた。その結果、MORBの組成は、東西半球に別れてクラスタリングされること、MORB組成の空間変化を特徴付ける量としては、Sr同位体が重要であることが分かった。この東西半球のクラスタリングは、Iwamori et al. (2015)等で示された構造と整合的である。Sr同位体比は、ソースマントル中のスラブリサイクル物質の量に敏感であることから（Hoffman, 1997; Albarede, 2009など）、空間分布を決定づけるのはSr同位体比であるという本研究の結果は、東西半球で沈み込み起源の物質の分布が異なっていることを示唆する。

講演情報

[M-GI29] [EJ] データ駆動地球惑星科学

[MGI29-P03] Sparse feature selection for clustering and sample-wise distance, with application to geochemical data