自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 CUDA 生态系统核心组件详解

CUDA技术栈由NVIDIA显卡驱动、CUDA并行计算平台和CUDA Toolkit开发工具包构成。CUDA Toolkit包含nvcc编译器、运行时库及数学库,cuDNN则提供深度学习算子加速。开发者通过nvcc编译CUDA代码,调用CUDA Runtime和cuDNN实现GPU计算。实际应用中可采用全局多版本管理(使用runfile安装并通过update-alternatives切换)或Conda环境隔离方案。该技术栈为深度学习框架(如PyTorch/TensorFlow)提供底层加速支持。

2025-07-04 15:52:25 779

原创 无监督学习的新视角:Ilya Sutskever的压缩理论

随着深度学习的发展,监督学习在图像识别、自然语言处理等领域取得了显著的成功。然而,无监督学习作为一种更加接近人类学习方式的方法,近年来也逐渐引起了研究者的关注。OpenAI的联合创始人之一伊利亚·苏茨克韦尔(Ilya Sutskever)在其一次演讲中,深入探讨了无监督学习的可能性及其背后的数学原理。本文将基于Ilya的演讲内容,详细解析无监督学习中的压缩原理,并探讨其在现代AI应用中的潜力。

2024-10-12 17:53:33 432

原创 Accelerate模型加载详解

然而,对于超大模型,这种方式变得困难。例如,加载一个67亿参数的模型在步骤一的模型创建就需要约26.8GB的CPU RAM。第二步还会再加载一份模型备份,即还会再需要26.8GB的CPU RAM。而且,以上步骤只是为了能将模型在步骤4移动到GPU上。接下来,我会介绍如何利用Accelerate优化PyTorch的特性,以便加载和推理非常大的模型,即使它们无法完全放入RAM或单个GPU。: 大模型在步骤1和2时需要大量的内存。

2024-10-12 17:34:50 1591

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除