17:15 〜 19:15
[MGI29-P03] 鉱物化学組成を用いた岩石種分類の課題解決に向けて
キーワード:機械学習、組成データ、欠損データ、副成分鉱物
堆積物や堆積岩に含まれる砕屑性鉱物の年代測定は、後背地推定・造山運動史・鉱床探査など多様な研究分野で活用されている。2000年頃からレーザーアブレーションICP質量分析計(LA-ICPMS)の普及により、砕屑性ジルコンやモナザイトなどの大量の年代データが利用できるようになった。得られる年代情報から地質現象を読み解くには、年代分布の解析だけでなく、鉱物粒子それぞれの形成過程や起源岩石種の制約に有効である。
鉱物の主要・微量元素組成は、形成メカニズムや形成環境 (バルク化学組成・共存鉱物組み合わせ)に敏感であり、形成過程や起源岩石種についての情報を与えてくれる。そのため、ジルコンなどの化学組成を用いた多くの岩石種分類指標が報告されてきた。現在、様々な岩石種のジルコン・モナザイトの元素濃度データが充実し始めており、機械学習手法による高精度な分類モデルの構築や、新たな特徴の発見が期待される。
鉱物化学組成は、組成データであること、欠損データが含まれること、不均衡データであることなどが分類問題を解くうえで障害となる。本発表では、クラス間のサンプル数に大きな偏りがある不均衡データの影響評価と対処法の検討を行う。ジルコン微量元素データを例に、下記の3つのアプローチを比較した: (i) クラスのデータ数の逆数を重みとして掛けることで損失関数での寄与率を調整する手法、(ii)合成サンプリングによる少数派クラスのデータ数を増やすオーバーサンプリング手法、(iii)多数派クラスのデータを間引くアンダーサンプリング手法とアンサンブル学習の組み合わせ。どのアプローチも有効であったが、少数派データ数が100点を切るような少ない場合は、アンダーサンプリングの比率によって分類性能の低下が生じるので注意が必要であることも明らかになった。
鉱物の主要・微量元素組成は、形成メカニズムや形成環境 (バルク化学組成・共存鉱物組み合わせ)に敏感であり、形成過程や起源岩石種についての情報を与えてくれる。そのため、ジルコンなどの化学組成を用いた多くの岩石種分類指標が報告されてきた。現在、様々な岩石種のジルコン・モナザイトの元素濃度データが充実し始めており、機械学習手法による高精度な分類モデルの構築や、新たな特徴の発見が期待される。
鉱物化学組成は、組成データであること、欠損データが含まれること、不均衡データであることなどが分類問題を解くうえで障害となる。本発表では、クラス間のサンプル数に大きな偏りがある不均衡データの影響評価と対処法の検討を行う。ジルコン微量元素データを例に、下記の3つのアプローチを比較した: (i) クラスのデータ数の逆数を重みとして掛けることで損失関数での寄与率を調整する手法、(ii)合成サンプリングによる少数派クラスのデータ数を増やすオーバーサンプリング手法、(iii)多数派クラスのデータを間引くアンダーサンプリング手法とアンサンブル学習の組み合わせ。どのアプローチも有効であったが、少数派データ数が100点を切るような少ない場合は、アンダーサンプリングの比率によって分類性能の低下が生じるので注意が必要であることも明らかになった。