随着用户对高性能计算和智能计算资源的需求不断增长,企业或者高校自建资源中心面临资源不足的情况越来越普遍。计算中心配备高性能算力设备,包括 HPC/AI 专用芯片及服务器、IB/RoCE网络设备、高速并行存储设备等,这些硬件设施的投资巨大,导致初始建设成本非常高昂。而本文探讨如何使用混合云方案,快速满足企业或者高校用户的资源需求。
当前市场上的混合云方案主要依赖于公有云提供商(例如Google Cloud、AWS、Azure等)提供的API能力。用户在公有云上创建虚拟私有云VPC、计算节点镜像、并动态创建集群。然而,这个过程往往繁琐且耗时较久。以在Google Cloud上创建一个基本的slurm集群为例,需要大概25分钟。此外,集群创建后,slurm的管理节点和登录节点会一直保持运行状态。
Gridview是一款高性能集群综合管理系统,依托多年行业经验并结合高新技术,旨在提供面向集群系统的运营、运维、作业调度等功能等一站式服务;覆盖三大核心功能包括强大高效的双擎调度系统、仿真设计一体化平台、全链路数据中心运维管理,降低使用门槛,提升业务效率。
Gridview混合云方案助力客户迅速将云端资源集成至私有云环境。企业或者高校客户仅需签订资源购买协议,在超算互联网平台(scnet.cn)完成计算资源的购买并激活资源授权码,在客户本地Gridview私有云中导入这些资源,即可轻松完成公有云资源的定价、管理和资源分配。客户便可在私有化Gridview系统中无缝地使用、管理和运营公有云资源。与使用本地集群资源一样,私有云普通用户可轻松提交作业到公有云,操作简便,如下图所示。
Gridview混合云方案有如下优点:
-
私有云平台可以快速导入公有云资源;
-
私有云超算运营管理员可以便捷的管理云端资源;
-
为私有云普通用户提供了和本地集群一致的使用体验,用户无任何学习成本。
某高校客户在升级至Gridview混合云版本后,通过引入某超算中心资源到私有云,为学校高性能计算用户分配公有云资源,有效解决了学校计算中心集群资源不足,用户作业排队时间长的问题,高效助力科研人员的研究工作。
如果您对Gridview混合云方案感兴趣,欢迎来咨询我!
参考资料:
-
Configure Google Cloud Platform Cloud Bursting https://2022.help.altair.com/2022.1.0/control/topics/cloud_bursting_gcp/gcp_cloud_bursting_configure_t.htm
-
Cloud HPC Toolkit: https://cloud.google.com/hpc-toolkit/docs/