日本地球惑星科学連合2023年大会

講演情報

[J] 口頭発表

セッション記号 S (固体地球科学) » S-CG 固体地球科学複合領域・一般

[S-CG55] 機械学習による固体地球科学の牽引

2023年5月21日(日) 10:45 〜 12:15 302 (幕張メッセ国際会議場)

コンビーナ:久保 久彦(国立研究開発法人防災科学技術研究所)、小寺 祐貴(気象庁気象研究所)、直井 誠(京都大学)、矢野 恵佑(統計数理研究所)、座長:雨澤 勇太(国立研究開発法人産業技術総合研究所)、石塚 師也(京都大学大学院 工学研究科)

11:45 〜 12:00

[SCG55-05] 深層Hashingによる類似波形を持つイベントの効率的探索

*直井 誠1平野 史朗2 (1.京都大学、2.立命館大学)

キーワード:類似波形探索、deep learning、近似最近傍探索

波形相関に基づく類似波形探索は,ノイズに埋もれた微小なイベントの抽出を可能とし,地震活動解析において重要な役割を果たしているが,計算コストが大きく大規模なデータセットへの適用は簡単ではない.この問題の解決策として,Yoon et al. (2015)は局所性鋭敏型ハッシュを用いた近似近傍探索技術を地震波形に適用する,FASTと呼ばれるアルゴリズムを提案した.この方法では,地震波形のスペクトログラムから作成したbinary fingerprintを,ランダム置換によるHashingでさらにコンパクトなコードに変換する.このHashingでは,似たfingerprintからは似たコードが得られるため,探索対象の全ての波形ペア間での総当り探索をせずに類似要素を見つけることができ,類似波形探索を高速に実施できる.一方,単純なHash関数で精度よく類似要素を探索するためには,1つの波形に対して数百回のHashingを実施してそれらのHash tableを保持する必要があり,メモリ消費が大きくなるという問題がある.よりスケーラブルな探索は,波形の情報をより効率的に圧縮できる関数を用い,1回のHashingで波形の情報を豊富に含むコンパクトなバイナリコードを生成できれば実現可能である.近年,画像・音声認識の分野では,深層学習を用いることでそのようなHash関数を作成し,大規模データセットの高速検索が実現されている.本研究では,深層Hashingと呼ばれる同手法を,室内実験で得られたAcoustic Emission(AE)の連続記録に適用して,大規模データセットでの類似波形探索を試みた.

本研究では Huang et al. (2017)が提案した,類似画像検索を対象とした手法をベースとして,地震・AE波形記録のHashingのための深層学習ネットワークを設計した.ハッシュ関数に対応するネットワークは,ある波形を入力,64要素の実数ベクトルを出力とし,1次元のCNN(Convolutional neural network)レイヤを組み合わせて構成した.類似波形探索においては同ネットワークの出力ベクトルを2値化したものをHashコードとして使用する.このDeep Hash networkを,Ankerサンプル,それに類似したPositiveサンプル,Ankerと異なる特徴を持つNegativeサンプルの3つの波形の組(Triplet)を多数用意し,各Tripletに対する出力から計算できる,各サンプルの出力ベクトル間の距離を制御するImproved Triplet Loss (Cheng et al. 2016)と,出力ベクトルの性質を制御する2つの損失関数の重み付き和を最小化するように訓練した.訓練データは,Tanaka et al. (2021)が実施した,黒髪島花崗岩供試体を用いた室内水圧破砕実験中に取得したAEデータ(10 MS/s連続収録)に対し,Tanaka et al.(2021)が古典的な自動処理手法の組み合わせで作成したAEカタログを元に準備した.解析には,16個の広帯域センサで計測されたデータを用いた.

同AEカタログでは6057イベントがリストされている.これらをテンプレートとした連続波形記録中の類似波形探索を,訓練したモデルを用いて実施した.上記の6057イベントの波形記録,及び約30分の連続波形記録をそれぞれが50%重複する1024 sample長の窓約3500万個に分割したものに対し,得られた深層Hashingモデルを適用してHashコードを取得した.次に,テンプレートと3500万個の窓の間でハッシュコード間のHamming距離(値が異なるbitの数)を計算してその16ch合計値Dsを求めた.得られたDsの分布において,平均値から標準偏差の6倍以上離れているという基準をもちいて,小さなDsを持つ窓を抽出し,さらに重複検出とChannel間の走時の整合性が保たれていないものを除去する処理を行った所,新たに16,224個のイベントを検出できた.

上記3500万個の窓における16 chのハッシュコードの合計サイズは4.5GB程度であり,2023年現在の一般的なPCにおいて全てを一括してメモリに置くことは容易であり,ディスクへのInput/Outputなしに,autocorrelation問題に相当する総当り計算を実施することも可能である.実際にHamming距離の総当り計算を実施したところ, 120スレッド並列化のもとで,わずか15.5時間で計算を終了させることができた.波形をコンパクトなバイナリコードに変換する本手法は,計算量の大きなテンプレートマッチング問題や,autocorrelation問題を,近年増加を続けている大量の地表地震観測連続データを始めとした大規模なデータセットに対して適用する助けになると期待できる.