09:30 〜 09:45
[MGI37-03] 分散ファイルシステムによる並列データI/O測定
現在、多くの科学研究分野ではデータのほとんどがデジタル化され、その量および種類は大規模化の一途をたどっている。これからますます大規模化・複雑化するデータ指向型科学時代を踏まえて、ビッグデータ処理がより容易に、また一元的行うことができるクラウドシステムが求められている。NICTサイエンスクラウドは、地球惑星科学を含む様々な科学研究データおよびソーシャルデータのためのクラウドシステムである。NICTサイエンスクラウドでは(1)データ伝送・データ取集機能、(2)データ保存・データ管理機能、(3)データ処理・データ可視化機能の3つの柱(機能)から構成されている。それぞれの機能についての基盤技術を開発するだけではなく、複数の基盤技術を組み合わせることでシステム化を行うことができる。システムを実際に科学研究に応用・適用することで、様々な分野でのビッグデータ科学・データインテンシブ科学が可能となる。本研究では、NICTサイエンスクラウド上で科学研究のビッグデータ処理を行うための基盤技術について議論する。データサイズが大きい場合にクラウドデータ処理で解決すべき問題点の一つはデータI/Oである。例えば、100MB/secで100TBのデータを読み出すとすると、1,000,000秒(約11.5日)かかる。すなわち、大規模科学データを処理するためには、高速I/O技術が不可欠である。本発表では、並列ファイルシステム(GPFS)と分散ファイルシステム(Gfarm)の2つのシステムでのデータ読み出し速度の比較を行い、それらのスケーラビリティーを比較する。