服务器安装nvidia驱动+cuda+cudnn+torch

1. 驱动安装

下载 NVIDIA 官方驱动 | NVIDIA

官方网站下载对应的驱动, 选择560.35.03版本。

1.1 卸载本机驱动

sudo apt remove --purge nvidia*

1.2 禁用nouveau

1.2.1 备份文件(以下均在root用户下操作)

cp /etc/modprobe.d/blacklist.conf /etc/modprobe.d/blacklist.conf.backup

1.2.2 修改文件

vim /etc/modprobe.d/blacklist.conf

在文件末尾添加如下内容:

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

关闭nouveau:echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf

更新:sudo update-initramfs -u

重启服务器:init 6

重启后查看是否禁用成功:lsmod | grep nouveau(没有任何输出内容则为成功禁用)

1.2.3 安装驱动

驱动文件赋予执行权限:chmod 755 NVIDIA-Linux-x86_64-560.35.03.run

./NVIDIA-Linux-x86_64-560.35.03.run --no-opengl-files -no-x-check -no-nouveau-check

重启:init 6

查看驱动安装是否成功:nvidia-smi

驱动与cuda版本对应表查询:CUDA 12.6 Update 1 Release Notes

2. cuda12.6安装

https://developer.nvidia.com/cuda-12-6-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=20.04&target_type=deb_local

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.6.0/local_installers/cuda-repo-ubuntu2004-12-6-local_12.6.0-560.28.03-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-12-6-local_12.6.0-560.28.03-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-12-6-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda-toolkit-12-6

查看cuda安装是否成功:

如果出现异常:Command 'nvcc' not found, but can be installed with,千万不要apt install nvidia-cuda-toolkit 去安装,否则会重新安装cuda。

 需要配置环境变量:~/.bashrc文件末尾添加两行,source ~/.bashrc

export LD_LIBRARY_PATH=/usr/local/cuda/lib64
export PATH=$PATH:/usr/local/cuda/bin

3.cudnn

下载地址:https://developer.nvidia.com/rdp/cudnn-archive,下载tar包。

安装:

tar -xvf cudnn-linux-x86_64-8.9.7.29_cuda12-archive.tar.xz
cp cudnn-*-archive/include/cudnn*.h /usr/local/cuda/include
cp -P cudnn-*-archive/lib/libcudnn* /usr/local/cuda/lib64
chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*

验证:

cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2

4. torch安装

这里一定要去官网找匹配自己环境的版本:Get Started 

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

### 配置PyTorch环境 为了在远程Ubuntu 20.04服务器上成功配置PyTorch环境,需按照一系列步骤操作以确保所有依赖项正确安装并兼容。这包括但不限于安装Anaconda3、NVIDIA驱动程序、特定版本的CUDA以及cuDNN。 #### 安装Anaconda3 首先,在服务器环境中部署Anaconda3有助于管理Python包及其不同版本之间的冲突。通过Anaconda创建独立的工作空间可以有效隔离各个项目所需的库文件,从而简化开发流程[^1]。 ```bash wget https://repo.anaconda.com/archive/Anaconda3-2020.11-Linux-x86_64.sh bash Anaconda3-2020.11-Linux-x86_64.sh source ~/.bashrc ``` #### 更新NVIDIA驱动至所需版本 对于GPU加速的支持至关重要的是要保证所使用的NVIDIA显卡驱动能够支持目标CUDA版本的要求。这里建议先卸载旧版驱动安装新版本: ```bash sudo apt-get purge nvidia* sudo add-apt-repository ppa:graphics-drivers/ppa sudo apt update sudo ubuntu-driver autoinstall reboot now ``` 确认已安装正确的驱动版本后继续下一步设置CUDA工具链。 #### CUDAcuDNN安装 由于存在多个CUDA版本可供选择,因此需要特别注意匹配合适的组合来满足最终想要运行的应用需求。本案例中提到的目标是使用CUDA 11.0 和 cuDNN 8.0.5 版本进行搭建。 下载对应于Linux系统的CUDA Toolkit 11.0,并遵循官方文档完成本地化安装过程;同样地获取适用于上述CUDA版本的cuDNN SDK (v8.0.5),解压并将其中的内容复制到相应目录下以便后续调用。 #### PyTorch的具体安装命令 最后一步则是利用pip或者conda渠道直接拉取指定标签下的PyTorch发行版。考虑到先前准备好的软件栈情况,推荐采用如下方式快速建立带有CUDA支持特性的PyTorch实例[^2][^3]: ```bash conda create --name pytorch_env python=3.8 conda activate pytorch_env conda install pytorch torchvision torchaudio cudatoolkit=11.0 -c pytorch ``` 以上指令会自动处理好剩余必要的依赖关系,使得整个框架可以在基于NVIDIA GPU硬件平台上顺利运作起来。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值