Chaos_Wang_-CSDN博客

原创使用stable diffusion webui在本地搭建中文的AI绘图模型

最近一段时间大火的AI绘画引起了各界人士的关注，但是stable diffusion开源的都是英文的模型，本文参考封神榜团队开源的太乙模型以及相关代码，利用stable diffusion webui搭建一个中文的AI绘图模型，在本地实现AI绘画。

2022-12-07 16:20:10 27729 26

原创英伟达NVIDIA服务器显卡多实例技术（MIG）

多实例技术有点类似于vGPU，如果物理服务器安装的是vmware或者KVM这种虚拟机系统，那么如果想给每个虚拟机分配一张显卡显然显卡不够分，一般6U的服务器也就8张显卡，所以需要用到vGPU技术，将显卡虚拟化成多张显卡，而这玩意跟虚拟机系统一样是需要收费的，按照显卡数量进行授权收费。而如果物理服务器安装的不是虚拟机操作系统，例如安装的是Ubuntu系统，然后采用docker等容器技术，也是需要对显卡进行多实例划分的，提高显卡的利用率。英伟达服务器显卡多实例技术（MIG）

2022-12-06 17:04:17 12823 3

原创 nvidia-smi命令详解和一些高阶技巧介绍

在深度学习等场景中，nvidia-smi命令是我们经常接触到的一个命令，用来查看GPU的占用情况，可以说是一个必须要学会的命令了，普通用户一般用的比较多的就是nvidia-smi的命令，其实掌握了这一个命令也就能够覆盖绝大多数场景了，但是本质求真务实的态度，本文调研了相关资料，整理了一些比较常用的nvidia-smi命令的其他用法。nvidia-smi命令详解和一些高阶技巧介绍。

2022-12-05 17:44:06 27092 4

原创【计算机网络相关】内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面

内网穿透介绍以及使用FRP实现内网穿透Windows远程桌面。利用内网穿透技术，将内网的一些设备的数据包进行转发，从而实现公网环境访问内网的设备。公网服务器充当的是一个数据交换的作用，我们访问公网IP，然后公网服务器将我们访问的数据转发到内网设备的IP，内网设备将数据在转发给公网服务器，公网服务器将数据转发给本地客户机，从而实现内网穿透，在任何地方访问内网设备。

2022-12-04 14:10:27 9976

原创【NLP相关】深入理解attention机制（产生、发展、原理、应用和代码实现）

attention机制并不是一个新概念，在很久之前（90年代）就有学者提出，其最早产生并且应用在计算机视觉（CV）领域，之后在自然语言处理（NLP）领域快速发展，最近又在CV领域火了起来。attention机制在深度学习各个领域都被广泛使用，尤其是CV和NLP任务中经常会出现attention机制的身影。本文将从原理角度深入分析attention机制。

2020-10-22 20:45:34 19041 2

原创大模型 Agent 中的通用 MCP 机制详解

大模型 Agent 中的通用 MCP 机制”代表了让 AI 从“会回答”迈向“会行动”的重要一步。通过 Memory、Controller、Planner 三位一体的架构，我们突破了 LLM 单轮对话的局限，让 AI 系统拥有了记忆过去掌控现在和筹谋未来的能力。本文从背景和概念入手，详尽阐述了 MCP 机制的三个要素及其典型实现方式，并探讨了多种框架案例和应用场景。

2025-05-27 23:07:32 206 1

原创深度解读 Qwen3 大语言模型的关键技术

这里我们选取 GPT-4（OpenAI的旗舰闭源模型）、LLaMA系列（Meta的开源大模型，假设即将推出的LLaMA3）以及 Anthropic 的 Claude 系列 (Claude 2/3) 来进行横向分析，看看 Qwen3 的优势和不足，以及它为开源模型阵营奠定的新标杆。特别是 Qwen3 拥有100多种语言能力，这对于全球化的聊天应用是巨大的优势——一个模型就能服务不同语言用户，无需为每种语言训练单独模型，且还能跨语言对话（例如用户用法语提问、模型用法语回答，或模型将英文知识翻译成中文解释）。

2025-05-27 21:51:37 493

原创多头注意力 vs 单头注意力：计算量与参数量区别

单头与多头注意力机制对比单头注意力通过线性变换生成Q、K、V矩阵，计算注意力权重后进行加权求和，复杂度为O(n²×d_model)。其参数量约为3×d_model²，但只能捕获单一模式。多头注意力将隐藏维度拆分为h个子空间并行计算，各头关注不同特征后拼接融合。尽管头数增加，但由于每头维度缩减为d_model/h，总参数量仅增至4×d_model²（增加输出变换参数）。计算量保持O(n²×d_model)量级，但通过并行化提升了多样化特征提取能力。

2025-05-26 23:09:07 230

原创推理模型 vs 非推理模型：核心区别及优劣势解析

在编程领域，推理模型能够生成正确且高效的代码，甚至给出现有代码的优化建议，对算法设计和错误调试提供逻辑清晰的分析。例如，同样一个问题，推理模型可能要调用多轮计算才能得出结果，而通用模型一次前向传播即可完成，这使得推理模型的响应延迟和每次查询成本都更高。需要指出的是，在不适合的场景使用这两类模型可能效率低下。在推理过程中，这种模型只激活与当前问题相关的专家，从而在扩展模型容量的同时保持了较高的计算效率。总体而言，相对于通用模型，推理模型的训练过程更复杂、针对性更强，旨在最大限度发掘模型解决复杂问题的潜力。

2025-05-26 22:54:57 278

原创强化学习在大模型中的应用详解

强化学习为大模型开启了新的发展维度，使得模型能够在数据驱动之外，通过交互和反馈持续提升。高效的联合训练算法：研究更高效、稳定的RL算法是关键，例如改进的策略梯度方法、自适应奖励建模技术以及联合的自监督+RL学习框架。开放世界和多任务能力：将大模型训练为通用体（generalist agent）继续是目标。通过自我对话（self-play）、众包模拟环境和开源任务平台，让模型在多样场景中进行强化学习，有望培养出更广泛的适应性和创造力。人机协同与交互方式：未来模型将更多地作为助手或合作伙伴角色存在。

2025-05-25 21:19:00 242

原创 PPO算法详解

此外，简单的无约束梯度更新可能使策略发生较大改变，从而破坏已学得的良好策略（即所谓的“策略崩溃”）。范围时，PPO会截断该项，从而有效控制了策略的偏移。优势函数的处理延续了Actor-Critic的做法，使用Critic学习的值函数来计算GAE，并在目标中使用该。TRPO（Trust Region Policy Optimization，信任域策略优化）算法针对策略梯度的策略崩溃问题提出了引入策略更新信任域的思想。这样的目标设计在保证稳定性的同时，仍允许一定程度的更新，达到了训练效率与安全性的平衡。

2025-05-25 20:53:40 99

原创 VAPO：视觉-语言对齐预训练（对象级语义）详解

多模态预训练模型（Vision-Language Pre-training, VLP）近年来取得了飞跃发展。在视觉-语言模型中，模型需要同时理解图像和文本，这要求模型学习二者之间的语义对应关系。早期方法如 VisualBERT、LXMERT 等往往使用预先提取的图像区域特征和文本词嵌入拼接输入，通过 Transformer 融合后在下游任务上微调。这类方法虽然有效，但对跨模态对齐依赖隐式的注意力机制，模型需要从零学习图像区域与文本片段的关联。

2025-05-19 21:52:49 232

原创 DAPO：用于指令微调的直接偏好优化解读

例如，在一道数学题的多步推理中，即使最终答案错误，模型在前半部分的正确推理步骤也应该得到一定程度的肯定（优势值可能为正），而错误发生的步骤应该被纠正。因此，在大模型对齐和能力强化的未来研究中，DAPO的思路可能会被广泛借鉴，成为开发更强大、更可信AI模型的基石之一。今后，可能会出现更多类似DAPO的算法，或者将DAPO的理念与其它方法相结合（例如结合人类监督、参考模型蒸馏等），形成新的训练范式。总体而言，DAPO证明通过精心设计的RL算法，大模型可以进一步挖掘出复杂推理能力，达到以前难以企及的水平。

2025-05-19 21:12:49 383

原创 DeepSeek系列核心技术与贡献总结

近年来，开源社区涌现出了一系列颇具影响力的大模型，DeepSeek系列便是其中的佼佼者。DeepSeek作为一家中国AI团队，连续发布了V1、V2、V3和R1等多个版本的开源模型，引入了多项创新技术，使得开源模型在性能上首次逼近甚至超越了一些封闭源的顶级模型。本文将深度解析DeepSeek模型的演进路径、核心技术点和其对开源生态的贡献，并分析当前面临的挑战与未来改进方向。

2025-05-18 19:53:29 182

原创 DeepSeek系列大语言模型推理优化技术深度解析

DeepSeek-V3通过多项创新技术显著提升了大规模语言模型的推理性能。首先，多Token并行解码（MTP）技术通过训练模型预测多个未来Token，实现了推测式解码，将生成速度提升近1.8倍。其次，多头潜在注意力机制（MLA）通过低维潜在表示压缩Key/Value缓存，减少了显存占用，支持长达65万Token的上下文处理。此外，Mixture-of-Experts（MoE）稀疏架构通过智能路由和负载均衡，优化了专家计算，降低了推理时的计算开销。

2025-05-18 19:32:34 284

原创 DeepSeek指令微调与强化学习对齐：从SFT到RLHF

大模型的后训练微调是提升其实用性和安全性的关键步骤。通常采用预训练、监督微调（SFT）和人类偏好对齐（RLHF）三阶段流程。DeepSeek V2通过大规模高质量的SFT数据集进行微调，显著提升了模型表现。在RLHF阶段，DeepSeek构建了多奖励框架，结合人类标注和规则奖励，优化模型输出。实验表明，RLHF能显著提升模型推理能力，但也存在计算复杂、输出多样性受限等问题。DeepSeek采用交替进行SFT与RL的多阶段训练流程，兼顾模型能力与稳定性。

2025-05-17 23:27:05 378

原创 DeepSeek超大模型的高效训练策略

DeepSeek在训练千亿乃至万亿级别参数模型时，面临显存瓶颈、计算开销、通信开销和资源有限等挑战。为应对这些挑战，DeepSeek采用了混合并行策略，包括数据并行、模型并行（张量并行和专家并行）和流水线并行，并通过DualPipe双流水线并行机制减少GPU闲置时间。此外，DeepSeek还进行了精度与内存优化，采用FP8混合精度训练框架，并在关键算子保持高精度以确保数值稳定性。在优化器与正则化方法方面，DeepSeek使用了AdamW优化器、分阶段学习率调度、梯度裁剪和MoE负载均衡策略，以提高训练稳定性

2025-05-17 23:12:48 381

原创 DeepSeek Coder：面向编程的代码专用模型

DeepSeek Coder系列基于DeepSeek V2的Transformer骨干结构，集成了混合专家（MoE, Mixture-of-Experts）技术，以在参数规模和算力资源之间实现高效平衡。尽管DeepSeek Coder专注于编程任务，但它在保持通用语言理解能力方面同样进行了精心设计。

2025-05-02 21:02:24 427

原创 DeepSeek R1：强化学习范式的推理强化模型

DeepSeek R1 不仅以其卓越的性能震撼了业界，更为未来大模型的训练和演进指明了方向，其方法论和训练范式必将成为推动智能模型持续进化的重要力量。随后，在整个训练流程中继续保留一部分简单问答的监督任务，以巩固模型的基础能力，从而在提升推理水平的同时保持回答的稳定性。在数学题目中，R1 能够按步骤列出完整的推导过程，比如在解联立方程时，模型会依次进行移项、计算和结果验证，每一步都符合逻辑，最终得到准确答案。R1 这种自带链式解答的能力，让用户更容易理解模型的推理路径，并减少了因误解造成的错误。

2025-05-02 20:52:10 477

原创 DeepSeek V3 训练策略：FP8混合精度与多Token预测

近年来，大规模语言模型取得重大突破，但其训练与部署成本也随之攀升。DeepSeek 系列开源模型致力于通过优化模型结构和训练策略来降低成本、提升性能。DeepSeek V3 融合了多种先进技术（如 FP8 低精度训练、DualPipe 双流水线机制、多Token 预测目标等），在保证模型能力的同时大幅提高了效率。本文将分五部分详细介绍 DeepSeek V3 在高效训练框架、双流水线并行、多Token 预测、多项部署优化策略及效果与影响方面的技术实现与创新。

2025-05-01 22:42:48 359

原创 DeepSeek V3 架构创新：大规模MoE与辅助损失移除

DeepSeek 团队推出的全新模型版本，相比之前的 V2 版本，V3 的参数量从两千多亿一跃攀升到，近乎实现了参数规模的三倍增长。如此宏大的模型规模并不只是简单地堆砌参数，而是建立在稀疏混合专家（Mixture-of-Experts，MoE）结构之上。得益于 MoE 的稀疏激活机制，DeepSeek V3 在保持强大表达能力的同时，仍能将推理计算开销控制在可接受范围内。这一规模飞跃为模型带来了更强大的知识储备和推理能力，在编程、数学、逻辑推理等任务上取得了前所未有的突破表现，展现出超越以往版本的强大实力。

2025-05-01 22:23:48 475

原创 DeepSeek V2：引入MLA机制与指令对齐

由于 RoPE 会在做注意力计算时插入位置相关的旋转矩阵，如果直接在压缩后的 Key 上应用 RoPE，会使得之前可被合并的线性变换无法合并，从而失去压缩的效果。这样设计后，MLA 在保留 RoPE 带来的位置敏感信息的同时，仍然大幅削减了 KV 缓存，并无需在推理时重新计算完整的 Key/Value 计算，从而彻底减轻了长序列推理时的带宽瓶颈。它采用了类似 YaRN 的上下文扩展方法，在训练中逐步上调位置编码的尺度，使模型在 4K 训练下也能稳定泛化到 32K 甚至 128K 的推理长度。

2025-04-30 22:45:12 606

原创 DeepSeek V1：初代模型的架构与性能

本文将深入解析DeepSeek V1的架构设计与技术细节，包括其关键机制、训练优化策略，以及在各类NLP任务上的表现。

2025-04-30 22:23:13 712

原创 Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

Mixture-of-Experts（MoE，混合专家）是一种“”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时，并非激活所有专家参与运算，而是通过一个专门的（Gate Network）为每个输入少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数（稀疏激活），从而的同时保持计算开销在可控范围内。

2025-04-29 22:27:34 388

原创卷积神经网络（CNN）详解

卷积神经网络（Convolutional Neural Network，CNN）之所以在图像处理中表现突出，源于两个关键操作：卷积（Convolution）与池化（Pooling）。两者配合，增强了网络提取特征和泛化的能力。较大的卷积核虽然视野更广，但会增加大量参数，提升计算成本，并可能导致过拟合。当前趋势是使用多个小尺寸（如3x3）的卷积核叠加实现大卷积核的效果，既减少参数，又能获得更多非线性表达。这是因为奇数尺寸卷积核能明确指定中心像素，便于对称地覆盖特征图，确保卷积操作输出尺寸的对齐和特征定位准确。

2025-04-29 21:49:57 194

原创集成学习详解

Bagging是一种通过随机抽样训练多个独立模型再通过投票或平均预测结果来提升性能的集成方法。

2025-04-28 23:33:39 340

原创深度学习任务评估指标

在深度学习中，评估模型性能是至关重要的环节。不同的任务和应用场景需要不同的评估指标来衡量模型的效果。本文将介绍一些常见的评估指标，包括混淆矩阵、F1-Score、ROC曲线及相关的性能指标，并帮助大家理解它们的作用及应用。

2025-04-28 23:15:03 155

原创批量级负载均衡（Batch-Wise Load Balance）和顺序级负载均衡（Sequence-Wise Load Balance）

批量级负载均衡是一种在整个训练批次（batch）范围内计算或施加负载均衡损失或策略的方法，它关注的是整个批次中各专家的总体负载分布，而非单个序列内部的平衡。与严格的序列级平衡不同，批量级方法允许模型根据整个批次内的令牌分布动态调整路由，从而为专家提供更大的专精空间和灵活性。顺序级负载均衡则在单个序列（sequence）或微批次（micro-batch）内部计算负载平衡损失，并强制每个序列中的令牌均匀分配到所有专家，以避免序列内部出现专家过载或闲置的情况。

2025-04-27 23:01:01 253

原创大语言模型架构基础与挑战

大语言模型（Large Language Model, LLM）在近几年引领了自然语言处理领域的革命性进展。这类模型通常拥有极其庞大的参数规模（往往达到数十亿乃至数千亿级别），通过对海量文本数据进行自监督训练，展现出卓越的语言理解和生成能力。自2018年前后第一批大语言模型问世以来，基于Transformer架构的模型（如BERT和GPT系列）在各种NLP任务上取得了前所未有的成绩。大语言模型之所以能够取得成功，一方面归功于其底层强大的模型架构设计，另一方面也依赖于大规模数据训练所带来的知识获取。

2025-04-27 22:52:34 201

原创 DeepSeek预训练追求极致的训练效率的做法

DeepSeek在预训练阶段通过多种技术手段实现了极致的训练效率，其中包括采用FP8混合精度训练框架以降低计算和内存需求，创新性地引入Multi-head Latent Attention（MLA）压缩KV缓存以提升推理效率，以及基于Mixture-of-Experts（MoE）的稀疏计算架构以在保证性能的同时显著降低训练成本。通过DualPipe算法优化流水线并行，DeepSeek实现了计算与通信的高度重叠，从而几乎消除了跨节点MoE训练的通信瓶颈。

2025-04-26 23:59:26 161

原创 DeepSeek 的长上下文扩展机制

YaRN（Yet another RoPE extensioN method）是一种基于 Rotary Position Embeddings (RoPE) 的高效上下文扩展技术。它通过在自注意力模块中对位置编码进行调整，使模型能够在处理更长序列时保持原有的位置信息精度，同时显著减少计算和内存开销。在具体实现上，YaRN 只作用于解耦的共享 key（decoupled shared key），避免了对整个注意力结构的全面修改，从而最大程度地保持模型原有性能与稳定性。

2025-04-26 23:56:34 320

原创 NLP高频面试题（五十五）——DeepSeek系列概览与发展背景

在多个权威基准上，DeepSeek-V2实现了与OpenAI GPT-4-Turbo相当的性能，而推理API价格仅为后者的1/70，“性能对标GPT-4-Turbo、成本大幅降低”使其一举成名，成为开源大模型的新标杆。DeepSeek-V3展示了在超大规模数据和参数下开源模型逼近甚至追平闭源模型的可能性，同时因为采用MoE技术，其实际计算开销仅相当于同等能力稠密模型的一小部分，这凸显了架构创新在大模型发展中的价值。其发布的每个模型版本均公开了模型权重、代码和技术报告，展现出高度的学术含量和严谨性。

2025-04-25 23:56:44 422

原创 NLP高频面试题（五十四）——深度学习归一化详解

现代深度学习中出现了多种归一化技术，它们各有针对的应用场景和特点。我们下面将介绍批归一化（Batch Normalization）层归一化（Layer Normalization）组归一化（Group Normalization）等最为常见的方法，以及实例归一化（Instance Normalization）、**权重归一化（Weight Normalization）**等衍生技术。对于每种方法，我们将讨论其核心原理、计算步骤、优势与局限。

2025-04-25 22:37:54 414

原创 NLP高频面试题（五十三）——深度学习正则化详解

R1w∑i∣wi∣R1wi∑∣wi∣.它会在优化过程中倾向于将许多权重压缩为零，实现稀疏化（sparsity）。稀疏模型不仅在存储和推理时更高效，也能自动完成特征选择，因为被置零的参数对应的输入特征被认为不重要。R2w∑iwi2R2wi∑wi2它会使得权重均匀收缩，但很少将其精确推到零。相比 L1，L2 更强调平滑性（smoothness），防止任意一个权重过大，从而降低模型对某一维特征的过度依赖。

2025-04-24 23:49:54 290

原创 NLP高频面试题（五十二）——深度学习优化器详解

在深度学习的训练过程中，各种基于梯度的优化器肩负着寻找损失函数最优解的重任。最基础的梯度下降法通过沿着损失函数负梯度方向迭代更新参数，实现对模型参数的优化；而随机梯度下降（SGD）则以更高的计算效率和内存利用率在大规模数据集上大放异彩，但也因更新噪声大、易陷入鞍点或局部最优而存在局限。为克服这些问题，Momentum、Adagrad、RMSProp、Adam 等优化器相继提出，分别通过动量项、参数自适应学习率或两者结合，有效提高了收敛速度与稳定性。

2025-04-24 23:34:44 175

原创 NLP高频面试题（五十三）——LLM中激活函数详解

激活函数（Activation Function）是一种非线性映射，将神经元的加权输入及偏置进行转换后再传递给下一层。没有激活函数，无论网络有多少层，都将退化为线性模型，无法拟合复杂的自然语言规律。激活函数需满足可导性（以便反向传播）与计算效率（以利大规模模型训练与推理）等基本要求。

2025-04-23 23:06:04 177

原创 NLP高频面试题（五十二）——BERT 变体详解

跨层参数共享即让每个 Transformer 层复用同一组权重，而非为每层维护独立参数。这样，模型深度不再线性增加参数量，显著降低内存占用并提升训练效率。在前向计算中，输入依次经过相同的层函数，但由于输入内容不同，仍能实现多层表达能力。ELECTRA 创新性地用替换标记检测（Replaced Token Detection, RTD）取代 MLM：训练一个小型生成器（Generator）在输入中生成候选替换标记，然后让判别器（Discriminator）对每个位置判断该标记是真实（来自原文）还是被替换。

2025-04-23 23:01:30 389

自然语言处理文本匹配任务baseline

空空如也