09:15 〜 09:30
[MGI37-02] 広域分散ファイルシステムGfarmと連動した高速ファイル転送ツール
キーワード:広域分散型ストレージ, Gfarm, 高速ファイル転送, UDT
巨大なデータ量を扱うハイパフォーマンス・コンピューティング(HPC)は,非常に大きなデータ量を扱う数値シミュレーション等に利用されている.近年,計算クラスタ内に数百から何千ものサーバを含む大規模な処理環境になるまでに至り,大量のストレージリソースが消費されている.さらに,ストレージリソースはエクサバイトオーダ以上のサイズが要求されるまでになり,スケールアウトが可能な広域分散型のストレージシステムが注目を集めている.情報通信研究機構(NICT)は,観測データやシミュレーションデータなど,あらゆる科学データを収集・蓄積すると同時に解析環境も提供する科学研究向けのクラウドシステム(NICTサイエンスクラウド)を構築している.NICTサイエンスクラウドは,国内5地区(東京, 名古屋,京都,大阪,沖縄)にあるデータセンターに分散配置した計算機を10GbpsのL2高速バックボーンネットワーク網であるJGN-Xで接続し,オープンソースの広域分散ファイルシステムのGfarmを用いて約3PBの広域分散型ストレージシステムを運用している.HPC等を想定した広域分散型ストレージシステムは,大容量データに対して高速なデータI/Oとデータ転送が重要となる.Gfarmは,ハイパフォーマンス・コンピューティング・インフラ(HPCI)の共有ストレージに採用されており,高速なデータI/Oを実現することが可能である.一方,データ転送にはインターネットで利用される標準の通信規約であるTCPを採用している.TCPは長距離・高遅延のネットワークにおいて伝送遅延の問題が知られており,Gfarmでは,TCPマルチストリーミングによってデータ転送の高速化を図っている.しかしながら,ネットワークが長距離・高遅延になればなるほど,高速化の効率が低くなっているのが実情である.我々はGfarmと連動する高速ファイル転送ツールを開発した.データ転送の通信プロトコルにオープンソースの通信ライブラリであるUDT(UDP-based Data Transfer)プロトコルを採用し,簡易な並列データ転送制御機構を有する.UDTプロトコルは,UDPによるデータのバルク転送とRTT(RoundTrip Time)に依存しない独自のフロー制御や輻輳制御を提供し,長距離・高遅延のネットワークにおいてはTCPよりも高速なデータ転送が可能である.本発表では,開発した並列ファイル転送ツールを紹介するとともに,基本的な性能について報告する.