- 博客(3)
- 收藏
- 关注
原创 CUDA 生态系统核心组件详解
CUDA技术栈由NVIDIA显卡驱动、CUDA并行计算平台和CUDA Toolkit开发工具包构成。CUDA Toolkit包含nvcc编译器、运行时库及数学库,cuDNN则提供深度学习算子加速。开发者通过nvcc编译CUDA代码,调用CUDA Runtime和cuDNN实现GPU计算。实际应用中可采用全局多版本管理(使用runfile安装并通过update-alternatives切换)或Conda环境隔离方案。该技术栈为深度学习框架(如PyTorch/TensorFlow)提供底层加速支持。
2025-07-04 15:52:25
779
原创 无监督学习的新视角:Ilya Sutskever的压缩理论
随着深度学习的发展,监督学习在图像识别、自然语言处理等领域取得了显著的成功。然而,无监督学习作为一种更加接近人类学习方式的方法,近年来也逐渐引起了研究者的关注。OpenAI的联合创始人之一伊利亚·苏茨克韦尔(Ilya Sutskever)在其一次演讲中,深入探讨了无监督学习的可能性及其背后的数学原理。本文将基于Ilya的演讲内容,详细解析无监督学习中的压缩原理,并探讨其在现代AI应用中的潜力。
2024-10-12 17:53:33
432
原创 Accelerate模型加载详解
然而,对于超大模型,这种方式变得困难。例如,加载一个67亿参数的模型在步骤一的模型创建就需要约26.8GB的CPU RAM。第二步还会再加载一份模型备份,即还会再需要26.8GB的CPU RAM。而且,以上步骤只是为了能将模型在步骤4移动到GPU上。接下来,我会介绍如何利用Accelerate优化PyTorch的特性,以便加载和推理非常大的模型,即使它们无法完全放入RAM或单个GPU。: 大模型在步骤1和2时需要大量的内存。
2024-10-12 17:34:50
1591
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人