在当今快速发展的云计算和人工智能时代,GPU资源的高效管理和动态调度成为了提升计算效能的关键。趋动科技的OrionX产品,以其创新的“GPU 热迁移”(有人称作GPU在线漂移)技术,正在重塑GPU资源管理的未来。
本文将探讨OrionX如何通过这一技术,实现GPU资源的无缝迁移,以及它为企业带来的革命性变化。国金证券IT部门率先采用了这一技术,其云平台经理李卓也一同分享他对于这项技术的深刻见解。
作者 | 国金证券 李卓,趋动科技 陈飞、Jim
01 GPU热迁移技术概述
“GPU 热迁移”是一种允许在不中断用户进程的情况下,将正在GPU上运行的任务从一个设备迁移到另一个设备。这种技术对于保持业务连续性和提高系统可靠性至关重要。OrionX的热迁移功能可以在同一个节点内进行,也可以跨节点进行;在跨节点迁移时,推荐使用RDMA网络以确保性能。
下面是通过OrionX的管理界面进行任务迁移的3个步骤:
第1步:选择一个任务,此时该任务运行在节点10.68.32.19上的Device-0上。点右上“发起迁移”:
Figure 1 选择任务发起热迁移
第2步:选择同一个节点上的Device-1设备,点击提交: