10:15 〜 10:30
[MGI34-06] フェーズドアレイ気象レーダーのデータ品質管理とデータ公開
キーワード:フェーズドアレイ気象レーダー、データ品質管理、データ公開、観測ビッグデータ
豪雨の早期探知と予測を目指して開発されたフェーズドアレイ気象レーダー(PAWR)は、詳細な3次元観測を30秒で行い、従来のパラボラアンテナ型気象レーダーの100倍のデータレートで観測ビッグデータを生成する。NICTでは吹田(大阪大学)、神戸、沖縄、そして埼玉大学に設置された4台のPAWRの観測運用とデータ保存・配信などを行っている。一般的には、気象レーダーの観測データはリアルタイム利用のニーズが高く降雨状況の把握や予測に用いられる。PAWRの30秒毎のリアルタイム観測データもスマホアプリ「3D雨雲ウォッチ」や「理研天気予報」で利用されている。一方、過去の観測データも様々な降雨事例の研究のために重要である。様々な豪雨のメカニズム解明や降水予測精度の向上などに加えて、最近では記録的豪雨の増加も社会問題として取り上げられるため、長期間のデータアーカイブが求められる。PAWRのWebページ(https://pawr.nict.go.jp/)では、リアルタイムで高度2 kmの降雨分布を示すクイックルック(QL)画像を作成して観測後1分以内に公開するとともに、「過去のデータ」ページで全てのQL画像と降雨サマリー(グラフ)を掲載している。降雨サマリーは高度2 kmの平均降雨量、最大降雨量、降雨面積を1日および1週間のグラフとして示すほか、30秒毎のテキストデータも残している。このQL画像および降雨サマリーは過去データの検索用に作成してきたが、それ自体が有用なデータとしても活用されている。数百万枚のQL画像はそのまま機械学習に用いることができ、降雨サマリーは長期間の降雨状況把握だけでなくデータ品質の変動調査などにも使うことができる。
リアルタイムデータでも過去データでもその利用においてはデータ品質管理が重要となる。PAWR観測データには地表面クラッタやノイズ、疑似エコーなどの不要データが含まれるため、10秒以内に計算されるデータ品質管理(QC)フラグを作成している。しかし、様々な降雨や環境の違いによってそのQC精度に問題があるため、現在、機械学習によるクラッタ識別手法の開発を進めている。過去の観測データはオープンデータとして公開する方針で進めているが課題も多い。まずはデータ容量の問題で、過去データは容量削減とハンドリングを考慮して種別毎に1時間毎のtgzファイルとして複数のストレージサーバに保存しているが、既に3 PBを超えている。全データを公開するのはコスト的にも現実的でないためリクエストのあったデータのみを公開サーバにコピーしている。別の問題として、保存データがオリジナルのバイナリーフォーマットでPAWR特有の極座標データのため、一般ユーザが利用するには敷居が高い。オープンデータとして多くのユーザに広く利用してもらうためには、適切なデータ品質管理と使いやすいファイル形式への加工が必要である。
リアルタイムデータでも過去データでもその利用においてはデータ品質管理が重要となる。PAWR観測データには地表面クラッタやノイズ、疑似エコーなどの不要データが含まれるため、10秒以内に計算されるデータ品質管理(QC)フラグを作成している。しかし、様々な降雨や環境の違いによってそのQC精度に問題があるため、現在、機械学習によるクラッタ識別手法の開発を進めている。過去の観測データはオープンデータとして公開する方針で進めているが課題も多い。まずはデータ容量の問題で、過去データは容量削減とハンドリングを考慮して種別毎に1時間毎のtgzファイルとして複数のストレージサーバに保存しているが、既に3 PBを超えている。全データを公開するのはコスト的にも現実的でないためリクエストのあったデータのみを公開サーバにコピーしている。別の問題として、保存データがオリジナルのバイナリーフォーマットでPAWR特有の極座標データのため、一般ユーザが利用するには敷居が高い。オープンデータとして多くのユーザに広く利用してもらうためには、適切なデータ品質管理と使いやすいファイル形式への加工が必要である。