[SSS12-P02] Locality Sensitive Hashingを用いた波形の特徴抽出と類似波形検出
キーワード:地震検知、波形類似度、類似検索、ハッシュ法
地震波形には、特定地域の震源特性や地下構造などの情報が豊富に含まれている。地震カタログに載らない微小地震による地震波を捉えることができれば、もちろん前震などの地震活動の特徴を捉えることにも有効であるが、地下構造をより詳細に知ることにも有効である。地震カタログに載らない微小地震による地震波を捉える方法はいくつか存在する。多く用いられている方法は、既知のテンプレート波形を用いた、相関係数によるテンプレートマッチングである(例えば、Doi and Kawakata, 2012; Kato et al., 2012)。しかし、この方法では既知の波形の類似波形を見つけることに他ならず、既知の波形を用いない解析を行えば、さらに多くの微小地震による地震波が捉えられる可能性がある。そこで、本研究ではテンプレート波形を用いずに高速な類似波形検出を行えるハッシュ法に注目した。Yoon, et al. (2015)はLocality Sensitive Hashing(LSH)を用いたハッシュ法の一種である、Fingerprint and Similarity Thresholding (FAST)という類似地震波形検出手法を提案した。FASTはBaluja&Covell.(2008)により音声検索において有効性が認められているWaveprintという手法を元に開発された。FASTは主に2つの構成要素から成り、1つ目はLSH特性を持つハッシュ関数による波形の特徴抽出、2つ目は波形ペアのハッシュ値の類似性であるJaccard係数を近似的に評価する類似検索である。そして、FASTの LSHとして開発されたFingerprintingを用いることで、地震カタログに載らない小さな類似波形のペアも見つけられることが確認されている。しかし、FASTはspectrogram 生成やWavelet変換という複雑な処理を行う必要がある。
本研究では、より少ない手順で計算可能な新たなハッシュ関数を2つ提案し、それらとFASTの3手法による類似波形ペアの検出を行った。そして、検出された類似波形ペアの類似度と相関係数の関係、計算実行に要する時間の2点を中心にそれらの性能比較を行った。 連続波形記録のspectrogramを見ると、一般に地震波形は一時的な高エネルギーイベントとして現れる。FASTはこの特性を利用しており、spectrogram生成やHaarWavelet変換を必要とする。一方、時系列で連続波形記録を見ると、一般に地震波形は周囲の常時微動に比べ、振幅が大きくなることが期待される。そこで、本研究ではこの特性に着目し、FASTとは異なり、連続波形記録の時系列情報そのままで計算できるようなハッシュ関数を設計した。1つ目は、Fei et al. (2015)によって画像検出のために提案されたaHashを地震波検知のために改造し、常時微動と地震波の識別に強くした2bit-aHash、2つ目は連続波形記録から切り出した波形ウィンドウ振幅の絶対値の順位でハッシュ値を定める全く新しい手法のkHashである。2bit-aHashは時系列の振幅の後続N個の平均値と標準偏差を用いる。平均値±標準偏差から逸脱している正の振幅には10、負の振幅には01を対応させ、それ以外をノイズとして00に対応させる。kHashは、波形ウィンドウの時系列の振幅の絶対値上位k%の正の振幅には10、負の振幅には01を対応させ、それ以外をノイズとして00に対応させる。
解析データとして、長野県中部で発生した Mj5.4の地震発生を含む2011年6月29日19:00~2011年6月30日18:59(JST)のHi-net松本和田観測点で記録された連続速度波形記録を用いた。結果として、2bit-aHash、kHashは地震カタログに載っていない、地震波のような類似波形ペアを検出することに成功した。そして2bit-aHash、kHashは検出波形波形ペア間の相関係数が高く、類似度の高さと相関係数の高さに相関がみられた。一方、FASTは複雑な処理を行う割に、検出される類似波形ペア間の相関係数が他の2手法に比べてばらつきが大きいことが分かった。加えて全体の実行時間は2bit-aHash、kHash共にFASTよりも約4~5倍高速であった。理由の一つとして、特徴抽出の際2bit-aHash、kHashがFASTよりも簡単に計算できることが挙げられるが、それだけでなく、類似検索の実行時間も数十倍高速になっていることが判明した。Yoon, et al. (2015)によると、解析に用いるデータのサンプル数nが非常に長くなれば類似検索の実行時間がO(n2)に近づいていくが、本研究の結果は2bit-aHashやkHashが類似検索時の実行時間の大きな改善にも貢献することを意味する。類似検索アルゴリズムではノイズ同士のペア、ノイズとイベント波形のペアなど、極端にJaccard係数が低い波形ペアはアルゴリズム内での類似度が定義できず、データベースから削除される。プロセスを精査したところFASTではこのような無駄なペアが削除されずに多数存在してしまうことが明らかになり、これを類似波形の候補として全て保持・検索しなければならないことが速度低下を招いていたものと考えられる。逆に2bit-aHash、kHashで出力された波形ペアのハッシュ値のJaccard係数はFASTのものよりも全体的に低く、無駄なペアがかなり削除されたため、速度が向上した。以上より、今回新たに提案した2bit-aHash、kHashの2手法はFASTよりも実行時間が特徴抽出だけでなく類似検索においても高速になり、また検出波形ペア間の相関係数が高くなりそのばらつきが少なくなることが示された。
本研究では、より少ない手順で計算可能な新たなハッシュ関数を2つ提案し、それらとFASTの3手法による類似波形ペアの検出を行った。そして、検出された類似波形ペアの類似度と相関係数の関係、計算実行に要する時間の2点を中心にそれらの性能比較を行った。 連続波形記録のspectrogramを見ると、一般に地震波形は一時的な高エネルギーイベントとして現れる。FASTはこの特性を利用しており、spectrogram生成やHaarWavelet変換を必要とする。一方、時系列で連続波形記録を見ると、一般に地震波形は周囲の常時微動に比べ、振幅が大きくなることが期待される。そこで、本研究ではこの特性に着目し、FASTとは異なり、連続波形記録の時系列情報そのままで計算できるようなハッシュ関数を設計した。1つ目は、Fei et al. (2015)によって画像検出のために提案されたaHashを地震波検知のために改造し、常時微動と地震波の識別に強くした2bit-aHash、2つ目は連続波形記録から切り出した波形ウィンドウ振幅の絶対値の順位でハッシュ値を定める全く新しい手法のkHashである。2bit-aHashは時系列の振幅の後続N個の平均値と標準偏差を用いる。平均値±標準偏差から逸脱している正の振幅には10、負の振幅には01を対応させ、それ以外をノイズとして00に対応させる。kHashは、波形ウィンドウの時系列の振幅の絶対値上位k%の正の振幅には10、負の振幅には01を対応させ、それ以外をノイズとして00に対応させる。
解析データとして、長野県中部で発生した Mj5.4の地震発生を含む2011年6月29日19:00~2011年6月30日18:59(JST)のHi-net松本和田観測点で記録された連続速度波形記録を用いた。結果として、2bit-aHash、kHashは地震カタログに載っていない、地震波のような類似波形ペアを検出することに成功した。そして2bit-aHash、kHashは検出波形波形ペア間の相関係数が高く、類似度の高さと相関係数の高さに相関がみられた。一方、FASTは複雑な処理を行う割に、検出される類似波形ペア間の相関係数が他の2手法に比べてばらつきが大きいことが分かった。加えて全体の実行時間は2bit-aHash、kHash共にFASTよりも約4~5倍高速であった。理由の一つとして、特徴抽出の際2bit-aHash、kHashがFASTよりも簡単に計算できることが挙げられるが、それだけでなく、類似検索の実行時間も数十倍高速になっていることが判明した。Yoon, et al. (2015)によると、解析に用いるデータのサンプル数nが非常に長くなれば類似検索の実行時間がO(n2)に近づいていくが、本研究の結果は2bit-aHashやkHashが類似検索時の実行時間の大きな改善にも貢献することを意味する。類似検索アルゴリズムではノイズ同士のペア、ノイズとイベント波形のペアなど、極端にJaccard係数が低い波形ペアはアルゴリズム内での類似度が定義できず、データベースから削除される。プロセスを精査したところFASTではこのような無駄なペアが削除されずに多数存在してしまうことが明らかになり、これを類似波形の候補として全て保持・検索しなければならないことが速度低下を招いていたものと考えられる。逆に2bit-aHash、kHashで出力された波形ペアのハッシュ値のJaccard係数はFASTのものよりも全体的に低く、無駄なペアがかなり削除されたため、速度が向上した。以上より、今回新たに提案した2bit-aHash、kHashの2手法はFASTよりも実行時間が特徴抽出だけでなく類似検索においても高速になり、また検出波形ペア間の相関係数が高くなりそのばらつきが少なくなることが示された。