17:15 〜 18:45
[MGI30-P05] mdx上に全球大気モデルの計算基盤を構築した事例
キーワード:数値モデル、仮想マシン、mdx、高性能計算機
“mdx”は、高速なCPU/GPU、ストレージ、ネットワークを備え、VMwareを基盤とする仮想マシンプラットフォームである。"mdx"は、日本の9つの国立大学と2つの国立研究機関により運用され、利用者は主に日本の研究機関でHPC環境を必要とする研究者である。
国立環境研究所では、2023年5月から"mdx"の試験利用を開始し、所内のオンプレミス環境で動かしている数値モデルを対象に、"mdx"上に同等の計算基盤を構築した。検証用数値モデルは全球高解像度大気モデルNICAMである。オンプレミス側で行われている数値モデルのプレ・ポスト処理を含めて、160並列で安定的に定時動作させることが目的である。この目的を達成する計算基盤を構築するため、以下の作業を行った。
- "mdx"上で使用する標準的な仮想マシンテンプレートの設計
- 以下の仮想マシンの構築
|-- ログイン用VM
|-- 認証基盤用VM
|-- ファイル共有用VM
|-- MPI用VM
`-- Webサーバ用VM
- 数値モデルの動作検証
- 運用・保守の実施検証
- 利用コストの検証
"mdx"運営側からは、仮想マシンテンプレートや、要求されるサーバ機能を構築するためのレシピが公式Webサイトを通じて提供されている。本番環境として運用されたホワイトペーパーのような事例が存在しないため、これらのドキュメントを元に、利用者自身で検証を行う必要がある。
この際に、オンプレミス環境で実現できている機能や、情報システム利用規定に則したシステムが構築できるかどうかについて検証しなければならない。公式テンプレートやドキュメントで不足している機能については、利用者側で自前の仮想マシンテンプレートを作成しなければならない。
検証した結果、公式テンプレートについてはMPI用VMとして採用し、それ以外のVMについては自前で仮想マシンテンプレートを作成することにした。特にセキュリティを含めた運用・保守に係る部分については、設計書や手順書を含めて利用者サイドでドキュメントを確保しておくことを重視した。これにより、"mdx"にベンダーロックインされないことと、他の仮想インフラへの展開などの拡張性を確保しておくことができる。
一方で、MPI用VMについては、"mdx"上のハードウェアやストレージサービスと密接に関係しており、動作保証性が要求される。そのため、"mdx"公式からのサポートが得られやすい公式テンプレートを採用した。
以上の作業により、図1の計算環境を構築し、160並列化したモデルを動かすことができた。現在、本番さながらの定常運用を行い、運用コストや、今後に必要な拡張機能の検証を行っている。発表では、本事例の成果として得られた仮想マシンの設計の詳細や、"mdx"へ移行する場合のメリットやデメリットについて紹介する。
国立環境研究所では、2023年5月から"mdx"の試験利用を開始し、所内のオンプレミス環境で動かしている数値モデルを対象に、"mdx"上に同等の計算基盤を構築した。検証用数値モデルは全球高解像度大気モデルNICAMである。オンプレミス側で行われている数値モデルのプレ・ポスト処理を含めて、160並列で安定的に定時動作させることが目的である。この目的を達成する計算基盤を構築するため、以下の作業を行った。
- "mdx"上で使用する標準的な仮想マシンテンプレートの設計
- 以下の仮想マシンの構築
|-- ログイン用VM
|-- 認証基盤用VM
|-- ファイル共有用VM
|-- MPI用VM
`-- Webサーバ用VM
- 数値モデルの動作検証
- 運用・保守の実施検証
- 利用コストの検証
"mdx"運営側からは、仮想マシンテンプレートや、要求されるサーバ機能を構築するためのレシピが公式Webサイトを通じて提供されている。本番環境として運用されたホワイトペーパーのような事例が存在しないため、これらのドキュメントを元に、利用者自身で検証を行う必要がある。
この際に、オンプレミス環境で実現できている機能や、情報システム利用規定に則したシステムが構築できるかどうかについて検証しなければならない。公式テンプレートやドキュメントで不足している機能については、利用者側で自前の仮想マシンテンプレートを作成しなければならない。
検証した結果、公式テンプレートについてはMPI用VMとして採用し、それ以外のVMについては自前で仮想マシンテンプレートを作成することにした。特にセキュリティを含めた運用・保守に係る部分については、設計書や手順書を含めて利用者サイドでドキュメントを確保しておくことを重視した。これにより、"mdx"にベンダーロックインされないことと、他の仮想インフラへの展開などの拡張性を確保しておくことができる。
一方で、MPI用VMについては、"mdx"上のハードウェアやストレージサービスと密接に関係しており、動作保証性が要求される。そのため、"mdx"公式からのサポートが得られやすい公式テンプレートを採用した。
以上の作業により、図1の計算環境を構築し、160並列化したモデルを動かすことができた。現在、本番さながらの定常運用を行い、運用コストや、今後に必要な拡張機能の検証を行っている。発表では、本事例の成果として得られた仮想マシンの設計の詳細や、"mdx"へ移行する場合のメリットやデメリットについて紹介する。