logdada-CSDN博客

原创 CUDA 生态系统核心组件详解

CUDA技术栈由NVIDIA显卡驱动、CUDA并行计算平台和CUDA Toolkit开发工具包构成。CUDA Toolkit包含nvcc编译器、运行时库及数学库，cuDNN则提供深度学习算子加速。开发者通过nvcc编译CUDA代码，调用CUDA Runtime和cuDNN实现GPU计算。实际应用中可采用全局多版本管理（使用runfile安装并通过update-alternatives切换）或Conda环境隔离方案。该技术栈为深度学习框架（如PyTorch/TensorFlow）提供底层加速支持。

2025-07-04 15:52:25 779

原创无监督学习的新视角：Ilya Sutskever的压缩理论

随着深度学习的发展，监督学习在图像识别、自然语言处理等领域取得了显著的成功。然而，无监督学习作为一种更加接近人类学习方式的方法，近年来也逐渐引起了研究者的关注。OpenAI的联合创始人之一伊利亚·苏茨克韦尔（Ilya Sutskever）在其一次演讲中，深入探讨了无监督学习的可能性及其背后的数学原理。本文将基于Ilya的演讲内容，详细解析无监督学习中的压缩原理，并探讨其在现代AI应用中的潜力。

2024-10-12 17:53:33 432

原创 Accelerate模型加载详解

然而，对于超大模型，这种方式变得困难。例如，加载一个67亿参数的模型在步骤一的模型创建就需要约26.8GB的CPU RAM。第二步还会再加载一份模型备份，即还会再需要26.8GB的CPU RAM。而且，以上步骤只是为了能将模型在步骤4移动到GPU上。接下来，我会介绍如何利用Accelerate优化PyTorch的特性，以便加载和推理非常大的模型，即使它们无法完全放入RAM或单个GPU。: 大模型在步骤1和2时需要大量的内存。

2024-10-12 17:34:50 1591

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 CUDA 生态系统核心组件详解

原创 无监督学习的新视角：Ilya Sutskever的压缩理论

原创 Accelerate模型加载详解

空空如也

空空如也

原创无监督学习的新视角：Ilya Sutskever的压缩理论