
随笔
文章平均质量分 78
HelloLLMs
技术存档点~ Paper阅读转化点^_^
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
模型训练实用之梯度检查点
以时间换空间,是训练大模型的必备技术。尽管会牺牲部分计算效率,但在显存不足时,它是实现模型训练的唯一可行方案。结合混合精度、梯度累积等技术,可进一步提升资源利用率。通过这种方式,内存占用减少50%,但计算量增加约33%(需额外进行一次前向计算)。,并在反向传播时重新计算未保存的激活值,从而减少内存需求。原创 2025-05-05 15:39:53 · 882 阅读 · 0 评论 -
load_dataset函数
Hugging Face 的 datasets 库中的 load_dataset 函数是一个核心工具,用于快速加载和处理多种格式的数据集。1.支持多种数据源2.自动处理数据格式。原创 2025-04-22 15:59:57 · 768 阅读 · 0 评论