教師なし学習を用いた珪長質火成岩微量元素組成データのソフトクラスタリング

油谷 拓

13:30 〜 13:45

[R2-O-3] 教師なし学習を用いた珪長質火成岩微量元素組成データのソフトクラスタリング

*油谷拓¹、桑谷立¹、吉田健太¹、上木賢太¹、中尾篤史¹、鳥海光弘¹、平野直人² (1. 海洋研究開発機構、2. 東北大学)

キーワード：教師なし学習、GEOROC、珪長質火成岩

[火成岩岩石学と機械学習] 火山岩の化学組成データは複数の元素の含有量を格納する高次元データであり，適切に解析を行うことにより多くの情報を抽出できる可能性が秘められている．しかし高次元のデータは可視化の困難さ等もあり的確な理解，解釈をする上での障害は多い．近年それを解消するために多変量解析や機械学習などの数理的な手法による岩石学へのアプローチがなされるようになってきた．教師あり学習で高次元データを既知のラベル（岩石形成のテクトニクス場など）に紐付ける研究例ではPetrelli and Perugini (2016, Contrib. mineral. petrol, 171(10), 1-15.) やUeki et al．(2018, G3, 19, 1327-1347.) など成功例が増えつつある．一方でIwamori et al．(2017, G3, 18(3), 994-1012.) は教師なし学習として白色化＋K-means法 (KM) を玄武岩同位体データセットに適用し，玄武岩の起源の識別に有効であることを示した．一般的に教師なし学習によるデータ解析は探索的な解析となり，未知のデータセットや予察的な解析に有効である．そこで本研究では教師なし学習によるデータ解析の更なる有効性を検証すべく，火成岩のデータセットに対して複数のクラスタリング手法を適用して結果を比較した．
[目的と手法] 本研究では岩石学データベース ”GEOROC” の安山岩，デイサイトの微量元素組成データを用いて3つのクラスタリング手法 (KM，混合ガウス分布モデル (GMM)，混合t分布モデル (SMM)) を実装し，既知の岩石種が抽出可能か調べることで各手法の火山岩データベースに対する応用可能性を検証した．GMMはデータ点の集合を複数のガウス分布の和として最適化する手法である．SMMは正規分布よりも裾野の重いt分布の混合モデルであり，GMMよりも外れ値に頑健な手法である．今回，学習したパラメータを基に各クラスタの岩石生成プロセス抽出も試みた．XRFで分析可能な9種の微量元素組成データ (Ti，Cr，Ni，Rb，Sr，Y，Zr，Nb，Ba) を対象とすることで，解析対象のデータ数は約２万点得られた．それらに白色化を施したのちにKM，GMM，SMMを行った．
[結果] 玄武岩の同位体比データでは精度の良い解釈が可能だったKMは，珪長質岩の微量元素組成データとテクトニクス場の対応付けにおいてはうまく機能しなかった．珪長質岩は玄武岩と比較するとデータの分布が複雑であるということが示唆される．GMMではクラスタ数を6以上と設定した場合に高Mg安山岩 (HMA) や未成熟な海洋性島弧に特徴的にみられる低Kソレアイト (LKT) に相当するグループの抽出に成功した．しかし外れ値に強く影響されるため，岩石学的解釈の困難な矮小なクラスタも見られた．一方ガウス分布よりも裾野の重く外れ値に影響されにくいSMMで学習した結果，より少ないクラスタ数の設定（4）でもHMA，LKT，その他のソレアイトおよびカルクアルカリ岩系列の4種の岩石種に相当するグループが検出され，火山岩の化学組成データと裾野の重い確率分布の混合モデルの相性が良いことが示唆される結果となった．また，GMMやSMMでは確率分布のパラメータ（各クラスタの重心や分散共分散行列など）が最適化される．各クラスタの高次元空間における分布の特徴（平均組成やトレンド）は学習されたパラメータの値により統一的・定量的に捉えることが可能である．これは高次元データの持つ情報量を保持しつつ火成岩岩石学的な解釈を可能にするものと考えられ，確率分布モデルの長所である．

講演情報

[1ch309-13] R2[レギュラー］岩石・鉱物・鉱床学一般

[R2-O-3] 教師なし学習を用いた珪長質火成岩微量元素組成データのソフトクラスタリング