
LLM学习
文章平均质量分 94
牛大了202X
jzc7的博客。数据集等资料都在资源里。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【LLM学习】2-简短学习BERT、GPT主流大模型
阅读《Attention is All You Need》论文,理解自注意力机制和多头注意力。学习BERT、GPT等主流LLM的预训练和微调流程。原创 2025-06-23 11:33:05 · 617 阅读 · 0 评论 -
【LLM学习】论文学习-Qlora: QLoRA: Efficient Finetuning of Quantized LLMs
本文介绍了一种名为QLoRA的创新方法,用于有效微调LLMs(文中Guanaco模型)。这种方法通过减少微调模型所需的内存量,使得原本需要超过780GB GPU内存的6.5B参数模型微调,现在可以在小于48GB的GPU内存下完成,同时保持与16位全参数微调的性能相当。这项技术使得目前最大的公开可用模型能够在单个GPU上微调,显著提高了LLM微调的可行性。so,重点是减少微调模型所需内存的使用——>保持性能的同时,提高了LLM微调的可能性。一种理论上最适合正态分布数据的量化的新的数据类型。原创 2025-03-21 20:29:42 · 1096 阅读 · 0 评论 -
【LLM学习】1-NLP回顾+Pytorch复习
随着大模型爆火,准备好好深入学习下,根据招聘岗位,总结了下大模型人才需要具备以下能力:深度学习与大模型开发:熟练掌握 PyTorch,了解 TensorFlow,熟悉 Transformer、BERT、GPT 等模型及其微调算法(如 LoRA)。大模型微调与优化:掌握微调方法(Supervised/PEFT)、指令微调、模型对齐、推理性能加速(vLLM、LmDeploy、Ollama 等)。原创 2025-03-08 20:05:10 · 770 阅读 · 0 评论 -
图解 Transformer笔记
[Transformer整体结构图,与seq2seq模型类似,Transformer模型结构中的左半部分为编码器(encoder),右半部分为解码器(decoder),接下来拆解Transformer。原创 2023-07-23 14:35:00 · 980 阅读 · 0 评论