
NLP&机器学习
文章平均质量分 92
本文主要记录工作、学习NLP以及机器学习涉及到的相关知识,和大家共同学习进步~
SmallerFL
到处搞点事情的程序猿;
一起进步,一起学习;
时不时记录,嘿嘿;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
理解LLM所谓的“推理”能力
本文探讨了大语言模型(LLM)的推理能力定义及提升方法。作者将推理定义为处理需要多步骤思考的复杂问题,如数学证明和谜语解答,而非简单的事实性问题。目前提升推理能力主要有四种方法:(1)推理时间扩展技术,如思维链提示和多答案投票;(2)纯强化学习,如DeepSeek-R1-Zero采用的跳过监督微调直接强化训练;(3)结合监督微调和强化学习的标准流程,如DeepSeek-R1;(4)模型蒸馏技术。文章指出,专用推理模型适合处理复杂推理任务,但不适用于简单问答原创 2025-06-12 16:08:59 · 942 阅读 · 0 评论 -
介绍MCP的背景及流程
大型语言模型(LLM)虽能处理复杂任务,但缺乏行动能力。模型上下文协议(MCP)作为开源标准,解决了这一痛点,使LLM能与外部系统(数据库、API等)安全交互。MCP采用客户端-服务器架构,通过能力发现机制让LLM动态获取可用工具(如PostgreSQL查询、GitHub操作)。典型工作流程包括协议握手、能力注册和执行操作。目前已有多种MCP服务器实现(Selenium、Docker等),为构建智能代理提供了标准化基础设施。该协议相当于AI领域的"USB接口",实现了思考与行动的分离协同原创 2025-06-12 16:07:45 · 962 阅读 · 0 评论 -
如何Step-by-Step蒸馏一个LLM模型?
本文逐步Step-by-Step介绍,如何蒸馏一个LLM模型,并且结合Python代码讲解。原创 2025-04-25 16:53:44 · 937 阅读 · 0 评论 -
DeepSeek-R1是如何训练出来的?
此前,我们介绍了《DeepSeek R1 技术简要总结》,主要结合 DeepSeek R1 的技术报告来梳理了其中的大致流程,没有关注细节。现在我们来着重关注 R1 的训练细节,来看看 R1 究竟是如何一步一步训练出来的。原创 2025-03-28 16:52:23 · 1131 阅读 · 0 评论 -
DeepSeek-V3 核心架构源码讲解
文本详细讲解 DeepSeek-V3 的核心架构的源码。原创 2025-03-05 09:00:59 · 2370 阅读 · 0 评论 -
DeepSeek R1技术报告总结
本文介绍DeekSeek R1技术报告总结。原创 2025-02-18 15:11:50 · 1710 阅读 · 0 评论 -
DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么?
本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。原创 2025-02-18 15:07:36 · 2010 阅读 · 0 评论 -
fp8、fp16和bp16的区别
本文介绍fp8、fp16以及bp16的区别。原创 2025-02-05 16:30:16 · 3901 阅读 · 0 评论 -
BFCL介绍以及本地模型评测大致流程
本文介绍bfcl的数据集、代码组成以及本地模型的评测大致流程。原创 2025-01-17 10:43:36 · 4100 阅读 · 1 评论 -
大语言模型LLM基础扫盲速通版
本文介绍大语言模型LLM的相关基础知识。原创 2025-01-17 10:42:58 · 4949 阅读 · 0 评论 -
FlashAttention1.0 论文及算法详解
本文介绍 FlashAttention 算法。FlashAttention 是一种用于提高 Transformer 模型中自注意力(self-attention)机制的计算效率和内存效率的算法。它通过减少高带宽内存(HBM)的读写次数来优化性能,特别是在处理长序列数据时。原创 2024-12-22 13:07:27 · 1410 阅读 · 0 评论 -
LLM的 RAG 分块(Chunking)策略
本文介绍LLM的 RAG 分块(Chunking)策略原创 2024-12-13 19:45:00 · 2515 阅读 · 0 评论 -
Gradient checkpointing 核心流程详细讲解
本文介绍gradient checkpointing的核心流程。原创 2024-12-05 19:00:00 · 1402 阅读 · 1 评论 -
BERT改进版对比:RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa
本文对比介绍几类 BERT 改进版模型: RoBERTa、DistilBERT、ALBERT、ELECTRA 以及 DeBERTa。原创 2024-11-30 18:34:51 · 3095 阅读 · 0 评论 -
ELECTRA 关键改进点详细讲解
本文主要介绍 ELECTRA 关键改进点的详细讲解。原创 2024-11-19 15:50:15 · 1072 阅读 · 0 评论 -
ALBERT 关键改进点详细讲解
本文主要介绍 ALBERT 的详细改进点。原创 2024-11-19 15:37:32 · 1208 阅读 · 0 评论 -
DQN的原理和代码实现
本文介绍DQN的原理以及代码实现。原创 2024-11-12 15:29:37 · 1123 阅读 · 0 评论 -
RoBERTa 关键改进点详细讲解
本文介绍 RoBERTa 相较于原始 BERT 的详细改进点。原创 2024-11-12 15:28:12 · 962 阅读 · 0 评论 -
「翻译」OpenAI o1 技术报告:提升编程、数学等推理能力
本文介绍 OpenAI o1的技术报告,在数学、编程、理解、科学、安全等各个维度的评测中都有较大提升。原创 2024-10-29 17:19:57 · 1443 阅读 · 0 评论 -
深度学习的知识蒸馏:Distilling the Knowledge in a Neural Network
本文介绍深度学习中的知识蒸馏操作,介绍论文“Distilling the Knowledge in a Neural Network”内容。原创 2024-10-29 17:18:59 · 1419 阅读 · 0 评论 -
量化W8A8和W8A16是什么?
本文介绍量化的w8a8、w8a16的详细内容。原创 2024-10-16 15:07:55 · 12498 阅读 · 2 评论 -
LLM模型保存的常见格式汇总
本文介绍LLM模型常见的保存格式。原创 2024-10-16 15:07:07 · 1734 阅读 · 0 评论 -
模型并行(Model Parallelism)原理详解
本文介绍模型并行(Model Paralleism)原理。原创 2024-09-30 17:18:53 · 2572 阅读 · 0 评论 -
流水线并行(Pipeline Parallelism)原理详解
本文介绍流水线并行的原理和主要流程。原创 2024-09-30 17:06:03 · 4080 阅读 · 0 评论 -
大型语言模型:通过代码生成、调试和 CI/CD 集成改变软件开发的游戏规则
本文介绍 llm 对传统开发人员的冲击,以及如何改变今后的软件行业。原创 2024-09-26 16:32:48 · 913 阅读 · 0 评论 -
Direct Preference Optimization (DPO)原理详解及公式推导
本文讲解Direct Preference Optimization (DPO)原理以及推导过程。原创 2024-09-19 15:41:45 · 17503 阅读 · 9 评论 -
训练中的数据并行DP详细讲解
本文讲解训练中的数据并行,以及如何更新模型状态。原创 2024-09-13 14:33:16 · 1806 阅读 · 0 评论 -
强化学习深入学习(一):价值函数和贝尔曼方程
本文介绍强化学习的基础概念,包含价值函数和贝尔曼方程。原创 2024-09-05 16:23:09 · 3492 阅读 · 0 评论 -
《Toolformer: Language Models Can Teach Themselves to Use Tools》论文解读
本文详细解读《Toolformer: Language Models Can Teach Themselves to Use Tools》论文。原创 2024-08-29 16:13:28 · 1235 阅读 · 0 评论 -
LLM的发展简述
本文概述了语言模型(LLMs)的70年发展历程,从1950年代信息理论的创立到现代大型语言模型的兴起。文章详细介绍了不同阶段的语言模型,包括早期的隐马尔可夫模型和n-gram模型,以及神经网络和词嵌入技术的发展,最终到达基于注意力机制的Transformer架构和预训练模型的革新。文中还讨论了各种大型语言模型,如BERT、GPT系列、RoBERTa等,它们分别在参数量、训练数据、潜在应用、企业适用性等方面各具特色。原创 2024-08-29 16:08:29 · 605 阅读 · 0 评论 -
Huggingface的transformer库如何忽略标签/token的loss计算
本文介绍huggingface的transformer如何忽略标签/token的loss计算。原创 2024-08-16 16:15:38 · 938 阅读 · 0 评论 -
InstructGPT: Training language models to follow instructions with human feedback 原理详解
本文根据论文介绍 InstructGPT的原理。原创 2024-08-16 16:15:22 · 973 阅读 · 0 评论 -
HuggingFace Transformer库如何在训练时降低GPU显存
本文介绍huggingface的transformer库如何在训练时减少gpu显存消耗。原创 2024-08-14 09:47:37 · 2351 阅读 · 0 评论 -
介绍ChatML以及在大模型的应用
本文介绍什么是chatml,以及在大模型有哪些应用。原创 2024-08-14 09:45:27 · 1909 阅读 · 0 评论 -
大模型训练ZeRO内存优化原理详解
本文介绍 Zero Redundancy Optimizer (ZeRO),如何减少内存使用并加速大规模模型的训练。原创 2024-08-02 17:55:47 · 2002 阅读 · 0 评论 -
TrainingArguments 的ignore_data_skip解释
本文详细介绍Transformers库的ignore_data_skip参数。原创 2024-08-02 10:42:10 · 1065 阅读 · 0 评论 -
Beam Search 原理详解
本文介绍 LLM 的Beam Search的详细原理。原创 2024-07-26 16:49:46 · 1817 阅读 · 0 评论 -
vLLM加速推理的内部原理详解
本文详细介绍 vllm 加速推理的内部原理,从 vllm 的背景以及最后的原理详细阐述。原创 2024-07-24 17:48:34 · 7449 阅读 · 0 评论 -
大模型Prompt提问技巧汇总
本文介绍大模型Prompt的提问技巧汇总。原创 2024-07-24 14:51:22 · 3279 阅读 · 0 评论 -
LLM指令微调Prompt的最佳实践(六):思维链推理Prompt
本文介绍LLM指令微调Prompt的最佳实践:思维链推理的Prompt原创 2024-07-16 14:34:20 · 1201 阅读 · 0 评论