gpu超算算法_超算安装GPU-based软件 (以pytorch为例)

最新推荐文章于 2025-05-24 18:58:40 发布

瓦克五

最新推荐文章于 2025-05-24 18:58:40 发布

阅读量670

点赞数

CC 4.0 BY-SA版权

文章标签： gpu超算算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35717340/article/details/112871140

本文介绍了在GPU超算环境中遇到的安装GPU-based软件，特别是PyTorch时的问题。由于登录节点通常没有GPU，导致安装过程默认为CPU-only版本。为解决此问题，提出了通过SLURM提交计算任务，申请一个CPU线程和GPU资源来运行安装程序的方法，成功安装了GPU版本的PyTorch。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一般的超算的拓扑结构是若干个登陆节点+若干个交换机+大量计算CPU节点+大量GPU计算节点+一个(或若干个)存储节点+管理节点。

其中存储节点的共享存储可以被所有节点访问。

一般运作方式是，如果我的计算依赖非常共性的软件，我可以找超算管理员安装，使用的时候可以通过module load来初始化自己所需软件。

我校瀚海20上已有共性软件如下：

Vasp和Gaussian是算力消耗的大头，但是超算用户覆盖几十个学院的几百个方向，不可能面面俱到，把所有人需要的软件都装在/opt 也是不现实的。

所以如果我的计算依赖的是比较小众的软件，那么我可以把软件安装在共享存储上，在程序运行的时候可以访问共享存储调用相关文件运行。

这里就会出问题了，安装软件的时候我是在登陆节点访问存储节点，一般来说登陆节点无需强算力没有GPU，但是软件在安装过程中会通过获取当前设备的硬件信息来来决定安装版本，比如PyTorch，在运行

conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

官方安装命令的时候，如果本机没有英伟达GPU，则会默认安装CPU-only版本的pytorch。

在官方repo下也有一个issue是请求安装cuda版本但是只装上了CPU-only版本

虽然这个issue的状态已经是'closed'，但是我仍然遇到了类似的问题：

猜测是安装过程中通过硬件来决定版本，而且在安装命令中无法强制声明安装cuda版本的pytorch而非CPU-only版本。

思来想去，想出一个办法，重新开个新的env，提交一个“计算”任务，申请一个cpu线程，一张显卡，来运行安装程序。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。