服务器环境:
- Ubuntu 16.04.4
- tensorflow 1.13.1
- cuda-10.0
- cudnn 7.4.5
最近在跑point cloud classification的demo PointASNL的时候,当batch_size设置比较大的时候,就会在训练中间出现以下错误:
2020-06-12 00:14:01.824110: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_ILLEGAL_ADDRESS: an illegal memory access was encountered
2020-06-12 00:14:01.824142: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:273] Unexpected Event status: 1
一开始以为是gpu的编程代码出现问题,反复检查之后发现并无错误。
从网上搜集资料之后隐约意识到应该是环境版本的问题。
在把cudnn 7.4.5降到cudnn 7.3.1之后,这个问题似乎解决了,希望别再出幺蛾子了。
------------------------
抱歉我回来了。。。惨遭打脸~~~
不是cudnn的问题,应该还是cuda编程的问题。
在此特别要提醒大家要注意核函数的参数<<<a,b>>>。
如果a,b的参数设置不对,是会产生上述报错的。
希望这次是正确的。。。