gpu超算算法_超算安装GPU-based软件 (以pytorch为例)

本文介绍了在GPU超算环境中遇到的安装GPU-based软件,特别是PyTorch时的问题。由于登录节点通常没有GPU,导致安装过程默认为CPU-only版本。为解决此问题,提出了通过SLURM提交计算任务,申请一个CPU线程和GPU资源来运行安装程序的方法,成功安装了GPU版本的PyTorch。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一般的超算的拓扑结构是若干个登陆节点+若干个交换机+大量计算CPU节点+大量GPU计算节点+一个(或若干个)存储节点+管理节点。

其中存储节点的共享存储可以被所有节点访问。

一般运作方式是,如果我的计算依赖非常共性的软件,我可以找超算管理员安装,使用的时候可以通过module load来初始化自己所需软件。

我校瀚海20上已有共性软件如下:

Vasp和Gaussian是算力消耗的大头,但是超算用户覆盖几十个学院的几百个方向,不可能面面俱到,把所有人需要的软件都装在/opt 也是不现实的。

所以如果我的计算依赖的是比较小众的软件,那么我可以把软件安装在共享存储上,在程序运行的时候可以访问共享存储调用相关文件运行。

这里就会出问题了,安装软件的时候我是在登陆节点访问存储节点,一般来说登陆节点无需强算力没有GPU,但是软件在安装过程中会通过获取当前设备的硬件信息来来决定安装版本,比如PyTorch,在运行

conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

官方安装命令的时候,如果本机没有英伟达GPU,则会默认安装CPU-only版本的pytorch。

在官方repo下也有一个issue是请求安装cuda版本但是只装上了CPU-only版本

虽然这个issue的状态已经是'closed',但是我仍然遇到了类似的问题:

猜测是安装过程中通过硬件来决定版本,而且在安装命令中无法强制声明安装cuda版本的pytorch而非CPU-only版本。

思来想去,想出一个办法,重新开个新的env,提交一个“计算”任务,申请一个cpu线程,一张显卡,来运行安装程序。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值