RuntimeError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory

最新推荐文章于 2024-05-19 18:28:54 发布

为啥不能修改昵称啊

最新推荐文章于 2024-05-19 18:28:54 发布

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： python

本文链接：https://blog.csdn.net/weixin_43845922/article/details/127602149

深度学习专栏收录该内容

35 篇文章

订阅专栏

博客指出使用多GPU训练模型时出现CUDA runtime初始化失败、显存不足的报错。虽代码显示有两张显卡可用，但训练就报错，发现GPU - 0的12G显存几乎全被占用，给出解决办法是杀死占用显存多的进程来释放显存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RuntimeError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory

当我想使用多GPU进行训练模型时，出现如下报错信息：

RuntimeError: CUDA runtime implicit initialization on GPU:0 failed. Status: out of memory

step1：

import tensorflow as tf
print(tf.__version__)
print(tf.test.is_built_with_cuda())
# print(tf.test.is_gpu_available())    # 提示说tf2以后不会用这个命令来检测GPU是否可用了
# 所以使用下面的命令来查看GPU
print(tf.config.list_physical_devices('GPU'))

在这里插入图片描述
虽然上面代码可以正常运行，而且也说有两张显卡可以使用，但是训练模型就会报错

step2:

nvidia-smi

GPU-0的12G显存几乎全被占用了，并且占用最多的PID是2560276， 647525
在这里插入图片描述
**step3: **

kill -9 2560276   # -9是信号变量SIGKILL的代号，代表立即终止的信号

杀死占用显存多的进程即可释放显存了（注意：可用杀死自己的进程，最好不要动实验室其他人的进程！！！）

参考博客

tf使用多个GPU进行训练