日本地球惑星科学連合2014年大会

講演情報

口頭発表

セッション記号 M (領域外・複数領域) » M-GI 地球科学一般・情報地球科学

[M-GI37_29AM1] 情報地球惑星科学と大量データ処理

2014年4月29日(火) 09:00 〜 10:30 413 (4F)

コンビーナ:*豊田 英司(気象庁予報部数値予報課)、村山 泰啓(独立行政法人 情報通信研究機構)、寺薗 淳也(会津大学)、堀 智昭(名古屋大学太陽地球環境研究所 ジオスペース研究センター)、大竹 和生(気象庁気象大学校)、若林 真由美(基礎地盤コンサルタンツ株式会社)、堀之内 武(北海道大学地球環境科学研究院)、野々垣 進(独立行政法人 産業技術総合研究所 地質情報研究部門 情報地質研究グループ)、座長:大竹 和生(気象庁気象大学校)

09:15 〜 09:30

[MGI37-02] 広域分散ファイルシステムGfarmと連動した高速ファイル転送ツール

*渡邉 英伸1黒澤 隆2村田 健史1 (1.独立行政法人 情報通信研究機構、2.株式会社 日立ソリューションズ東日本)

キーワード:広域分散型ストレージ, Gfarm, 高速ファイル転送, UDT

巨大なデータ量を扱うハイパフォーマンス・コンピューティング(HPC)は,非常に大きなデータ量を扱う数値シミュレーション等に利用されている.近年,計算クラスタ内に数百から何千ものサーバを含む大規模な処理環境になるまでに至り,大量のストレージリソースが消費されている.さらに,ストレージリソースはエクサバイトオーダ以上のサイズが要求されるまでになり,スケールアウトが可能な広域分散型のストレージシステムが注目を集めている.情報通信研究機構(NICT)は,観測データやシミュレーションデータなど,あらゆる科学データを収集・蓄積すると同時に解析環境も提供する科学研究向けのクラウドシステム(NICTサイエンスクラウド)を構築している.NICTサイエンスクラウドは,国内5地区(東京, 名古屋,京都,大阪,沖縄)にあるデータセンターに分散配置した計算機を10GbpsのL2高速バックボーンネットワーク網であるJGN-Xで接続し,オープンソースの広域分散ファイルシステムのGfarmを用いて約3PBの広域分散型ストレージシステムを運用している.HPC等を想定した広域分散型ストレージシステムは,大容量データに対して高速なデータI/Oとデータ転送が重要となる.Gfarmは,ハイパフォーマンス・コンピューティング・インフラ(HPCI)の共有ストレージに採用されており,高速なデータI/Oを実現することが可能である.一方,データ転送にはインターネットで利用される標準の通信規約であるTCPを採用している.TCPは長距離・高遅延のネットワークにおいて伝送遅延の問題が知られており,Gfarmでは,TCPマルチストリーミングによってデータ転送の高速化を図っている.しかしながら,ネットワークが長距離・高遅延になればなるほど,高速化の効率が低くなっているのが実情である.我々はGfarmと連動する高速ファイル転送ツールを開発した.データ転送の通信プロトコルにオープンソースの通信ライブラリであるUDT(UDP-based Data Transfer)プロトコルを採用し,簡易な並列データ転送制御機構を有する.UDTプロトコルは,UDPによるデータのバルク転送とRTT(RoundTrip Time)に依存しない独自のフロー制御や輻輳制御を提供し,長距離・高遅延のネットワークにおいてはTCPよりも高速なデータ転送が可能である.本発表では,開発した並列ファイル転送ツールを紹介するとともに,基本的な性能について報告する.