9命怪猫-CSDN博客

原创 LLM指纹底层技术——中心核对齐相似度

中心核对齐相似度 (Centered Kernel Alignment, CKA)是一种用于量化两组高维向量表示（representations）之间结构相似性的统计方法。在LLM指纹的语境下，它被用来精确测量两个模型（或两个层）在处理同一批输入数据时，其内部神经激活模式 (Neural Activation Patterns)的相似程度。核心思想与价值：传统指纹技术（如文本风格、Logits分布）关注的是模型“说什么”，而CKA关注的是模型“如何思考”。

2025-07-19 08:47:58 364

原创 LLM指纹底层技术——哈希函数编码

在需要处理海量信息、争分夺秒的真实世界应用中，这种化繁为简、直击要害的能力，使其成为LLM指纹技术栈中不可或缺的、极具实用价值的一环。，将从LLM生成内容中提取的、高维离散的原始特征（如n-grams文本片段、稀疏的词汇特征），直接映射成一个固定长度的、紧凑的**数字指纹（通常是整数向量或位数组）**的过程。“LLM指纹”技术栈中，“编码向量生成”利用一个复杂的、经过学习的神经网络（如Transformer编码器）来生成一个信息密集的“法证级”指纹，哈希函数编码则是一种。在“LLM指纹”的语境下，

2025-07-19 08:45:32 226

原创 LLM指纹底层技术——编码向量生成

它将前面所有环节提取的、各种形态（数值、文本、概率分布）的原始特征，通过一个高度浓缩的编码过程，最终生成一个固定维度的、信息密集的。，将一个或多个从LLM生成内容中提取的原始特征（如Logits序列、注意力图、文本自身），映射到一个低维、稠密的数学向量空间中，从而产生一个能唯一标识该LLM身份的向量的过程。正是通过编码向量生成，这些数据才被赋予了可度量的、可操作的、有意义的身份内涵，从而让大规模、自动化的模型溯源成为可能。这个向量就是模型最终的、可量化、可比较的“数字身份证”。在“LLM指纹”的语境下，

2025-07-18 08:15:50 717

原创 LLM指纹底层技术——推理与解码策略

模型本身的工作只是预测“下一个词是‘的’的概率是50%，是‘地’的概率是30%，是‘得’的...”，它给出的一个概率列表。不同的决策机制会导致模型的输出风格迥异——是从规矩的“标准答案”到天马行空的“创意写作”，这些风格上的系统性差异，就构成了“解码指纹”。这些策略控制着模型输出的**“创造性”与“确定性”**之间的平衡。同时，像水印这样的主动技术，则像是在产品出厂前盖上的一个无法磨灭的“序列号”。这些设置共同塑造了模型的最终“气质”，成为我们在与AI的每一次互动中，都能直观感受到的、最表层的身份印记。

2025-07-18 08:06:46 341

原创 LLM指纹底层技术——训练过程与对齐技术

它就像物理世界中的万有引力定律，设定了所有模型都必须遵循的基本规则。一个模型的规模和层数，不仅决定了它能学到多少知识，更从根本上划定了其处理复杂问题的能力上限，是其最基础、最难以伪造的宏观指紋。在识别一个模型的指纹时，对其规模级别的判断是第一位的。这决定了我们对它后续所有行为和能力表现的预期基准，也是理解其在AI世界中所处生态位的最根本依据。，从而在模型的推理能力、事实准确性和复杂指令遵循能力上，留下清晰可辨的指纹。这四个要素相互关联，共同定义了一个模型的宏观规模，并最终体现在其能力指纹上。

2025-07-17 15:03:44 377

原创 LLM指纹底层技术——模型规模与层数

它就像物理世界中的万有引力定律，设定了所有模型都必须遵循的基本规则。一个模型的规模和层数，不仅决定了它能学到多少知识，更从根本上划定了其处理复杂问题的能力上限，是其最基础、最难以伪造的宏观指紋。在识别一个模型的指纹时，对其规模级别的判断是第一位的。这决定了我们对它后续所有行为和能力表现的预期基准，也是理解其在AI世界中所处生态位的最根本依据。，从而在模型的推理能力、事实准确性和复杂指令遵循能力上，留下清晰可辨的指纹。这四个要素相互关联，共同定义了一个模型的宏观规模，并最终体现在其能力指纹上。

2025-07-17 10:58:13 707

原创 LLM指纹底层技术——人类反馈强化学习

通过精心设计的探针任务，可以清晰地看到其信息流动的通路是密集的全连接（MHA），还是带有局部窗口（SWA），亦或是分组共享（GQA）。它们通过改变“一个词可以关注哪些其他的词”这一基本规则，直接影响了模型构建上下文依赖关系的方式，从而在生成文本的。不同的注意力机制就像不同类型的思维模式，差异会在模型生成的文本中留下深刻且可识别的印记。这条路径的核心思想是“一个词的含义主要由其邻近的词决定，没必要关注所有词”。不同的效率优化思路，形成了不同的技术路径和独特的指纹。）而发展出的各种修正或近似版本的注意力机制。

2025-07-16 20:27:43 698

原创 LLM指纹底层技术——模型架构

它不仅能告诉我们一个模型“是谁”，更能告诉我们它“能成为谁”，这对于整个AI生态的评估、规划和治理具有不可估量的价值。这相当于一个人的“骨架结构”，它从根本上决定了模型的潜力上限、行为模式和固有缺陷，是所有其他细粒度指纹（如注意力、位置编码）得以附着的载体。它决定了模型的物种归属（是Transformer、SSM还是其他），设定了其成长的天花板，并赋予了其无法根除的遗传特性。这种由架构设计所带来的、系统性的、可预测的行为模式与能力边界，就是我们所说的“架构指纹”。在“LLM指纹”的语境下，

2025-07-16 19:24:23 703

原创 LLM指纹底层技术——特征表示

因此，LLM指纹中的特征提取技术，不仅是一项满足好奇心的学术探索，更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中，能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节，它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹，那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类：分析输出的“产品”，还是分析产生的“过程”。

2025-07-15 10:22:41 763

原创 LLM指纹底层技术——特征提取

因此，LLM指纹中的特征提取技术，不仅是一项满足好奇心的学术探索，更是确保AI技术健康、安全、可信发展的基石。它的发展将直接决定我们未来在数字世界中，能否分清“真实”与“虚构”的边界。提取出的特征就像人类指纹中的“涡、环、弓”等细节，它们共同构成了一个可供比对和识别的档案。如果说架构、位置编码、指令微调等是模型“无意识”留下的生物痕迹，那么特征提取就是法医科学家从这些痕迹中分离、量化、并识别出关键DNA片段的技术。特征提取的技术路径可以分为两大类：分析输出的“产品”，还是分析产生的“过程”。

2025-07-15 10:12:34 643

原创 LLM指纹底层技术——指令微调

简单来说，预训练模型学会的是“续写”，你给它“中国的首都是”，它能续写出“北京”。指令微调就是通过给模型看大量的“指令-回答”范例，让它学会这种“一问一答”或“遵循命令”的交互模式。我们评价一个模型是“乐于助人”、“死板教条”还是“油嘴滑舌”，很大程度上就是在描述其指令微调阶段所形成的印记。如果说预训练是为大模型注入了灵魂（知识），那么指令微调就是用一把精密的刻刀，雕琢出了这个灵魂与外界交互的“面孔”和“性格”。“LLM指纹”体系中，有个核心环节负责塑造模型“行为模式”和“可沟通性”——

2025-07-14 18:53:35 419

原创 LLM指纹底层技术——记忆与过拟合

它像一个幽灵，潜伏在庞大的模型参数之中，时刻提醒我们，强大的能力背后，是同样巨大的责任与风险。问题在于，我们无法精确控制模型记忆的边界，它在记住事实的同时，也记住了不该记住的隐私和噪声。利用记忆作为指纹的技术路径，本质上是一种被称为**“数据抽取攻击 (Data Extraction Attack)”** 的法医学过程。，因为这些被逐字记住的、独特的、可被精确触发的文本序列，构成了模型最明确、最无可辩驳的“身份证明”。这不仅是模型训练中的技术难题，更是直接关系到隐私、安全和版权的、最不容忽视的指纹来源。

2025-07-14 18:47:47 675

原创 LLM指纹底层技术——位置编码

例如，对于注意力机制来说，“人咬狗”和“狗咬人”这两个句子，如果不加入位置信息，词向量本身是完全一样的，模型将无法区分其天差地别的含义。通过精心设计的“压力测试”，例如操纵输入文本的长度、结构和顺序依赖性，就可以像地质学家探测地层一样，探测出模型所使用的位置编码类型，从而揭示其架构的“秘密”之一。因此，位置编码的本质工作就是为输入序列中的每一个Token（词或子词）附加一个独特的、代表其在序列中绝对或相对位置的数学“标签”，让模型能够理解“谁在谁前面，谁在谁后面”。第n个）分配一个固定的、唯一的向量。

2025-07-08 08:28:32 821

原创 LLM指纹底层技术——注意力机制变体

这些变体通过改变注意力分数的计算方式、修改Query/Key/Value的组织结构，或引入稀疏性假设，从而在效率和模型表现之间做出不同的权衡。正是这些在架构和算法上做出的、充满权衡与妥协的决策，共同塑造了一个大模型独一无二、难以伪造的“数字灵魂”——也就是我们所说的LLM指纹。它的输出将同时带有这三种技术的烙印：对相对位置敏感、在精细任务上可能略显粗糙、且无法处理超出窗口的远距离依赖。需要强调的是，一个大模型的最终指纹是多种技术选择叠加的结果。——而设计的各种经过修改的注意力结构。

2025-07-08 08:22:14 811

原创浅析LLM指纹如何形成

因此，要识别ChatGPT的指纹，专家会设计一套复杂的探测方案，通过测试其长文本理解力、安全边界、知识交叉能力、回答风格一致性，并进行统计分析，从而极高精度地判断一段文本是否“师出ChatGPT”。ChatGPT的指纹并非单一技术，而是其整个技术栈——从模型架构到推理部署——多层技术细节叠加后产生的综合性、系统性的外部表现。同样受解码参数影响，但由于模型能力更强，即使在相同参数下，输出的质量和深度也远超3.5，这本身就是最强的“能力指纹”。其RLHF基于更强的基础模型，安全边界更难被突破，回答更细致周全。

2025-07-07 16:34:51 702

原创技术、产品双维度看LLM指纹

大模型指纹（LLM Fingerprint）是一种或一组可稳定复现的、独特的、能代表特定大模型内在属性的输出特征。就像人类的指纹一样，这种特征可以用来高精度地识别、验证或追踪一个特定的、甚至未知的模型。简单来说，如果猫哥向10个不同的聊天机器人问同一个“刁钻”的问题，它们各自的回答风格、用词、知识盲点、甚至“胡说八道”的方式，都会有所不同。这些差异化的、可被捕捉和分析的特征，就是它们的“指纹”。技术角度：指纹从何而来？大模型的指纹并非单一来源，而是其复杂系统在多个层面留下的综合印记。

2025-07-07 13:08:03 688

原创 AI大模型底层技术——Scaling Law

Scaling Law 是我们目前拥有的、用于导航大型模型开发广阔前景的最可靠地图。它们不是教条，而是强有力的指导原则，随着领域不断推动规模、效率和能力的边界，这些原则也在不断被完善、挑战和扩展。对于任何严肃参与构建或战略部署大规模 AI 的人来说，理解其细微差别至关重要。是描述 AI 模型性能随关键因素（如参数量、数据量、计算量）增长而变化的数学规律，通常表现为幂律关系。

2025-04-08 22:57:52 807

原创 DeepSeek底层揭秘——《推理时Scaling方法》技术对比浅析

笔者尝试对比了“关于推理时Scaling”与现有技术，粗浅分析如下：

2025-04-08 22:30:37 764

原创 DeepSeek底层揭秘——《推理时Scaling方法》内容理解

DeepSeek与清华大学联合发布的论文《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》，核心在于提出一种新的推理时Scaling方法，即通过动态调整奖励机制，而非改变模型参数，来提升大规模语言模型（LLM）的推理能力。这种方法突破了传统依赖强化学习（RL）在训练阶段优化模型性能的局限，为LLM推理能力的提升提供了全新方法论。论文中的"Scaling"主要指推理计算资源的扩展，而非模型大小（参数量）或数据规模的扩展。

2025-04-07 23:23:44 972

原创 AI大模型底层技术——结合 Prompt Engineering 的 LoRA

"结合 Prompt Engineering 的 LoRA" 指的是将 Prompt Engineering (提示工程) 技术与 LoRA (Low-Rank Adaptation) 微调技术相结合，以更高效、更灵活地引导 AI 大模型完成特定任务的方法。Prompt Engineering 负责设计有效的提示语 (Prompts)，而 LoRA 负责在冻结大部分模型参数的情况下，微调少量参数以适应特定任务。

2025-04-07 23:10:23 779

原创 AI大模型底层技术——Multi-LoRA Combination Methods

"Multi-LoRA Combination Methods" 指的是在 LoRA (Low-Rank Adaptation) 微调的基础上，使用多个 LoRA 模块，并通过特定的方法将它们组合起来，以适应多任务学习、领域自适应或模型个性化等场景的技术。与传统的 LoRA 方法只使用单个 LoRA 模块不同，"Multi-LoRA Combination Methods" 能够利用多个 LoRA 模块的优势，实现更灵活、更强大的模型微调。

2025-03-29 12:29:25 883

原创 AI大模型底层技术——Adaptive Rank Allocation

"Adaptive Rank Allocation" 指的是一种在 LoRA (Low-Rank Adaptation) 微调过程中，根据模型不同层或模块的重要性，自适应地分配 LoRA 秩 (Rank) 的技术。传统的 LoRA 方法通常为所有层或模块设置相同的秩，而 "Adaptive Rank Allocation" 则允许不同的层或模块拥有不同的秩，从而更有效地利用参数，提高微调性能。

2025-03-29 12:16:13 829

原创 AI大模型底层技术——LoRA for Vision Transformer (ViT)

"LoRA for Vision Transformer (ViT)" 指的是将 LoRA (Low-Rank Adaptation) 技术应用于 Vision Transformer (ViT) 模型，以实现参数高效的微调。ViT 模型在图像识别领域取得了显著的成果，但其庞大的参数量使得全参数微调成本高昂。LoRA 提供了一种解决方案，通过只训练少量参数，即可使 ViT 模型适应新的图像任务，同时保持较高的性能。

2025-03-28 23:13:23 1085

原创 AI大模型底层技术——DyLoRA

DyLoRA (Dynamic Low-Rank Adaptation) 是一种在 LoRA (Low-Rank Adaptation) 基础上发展起来的动态参数微调技术。与 LoRA 采用固定的低秩矩阵不同，DyLoRA 允许 LoRA 模块的秩 (rank)根据输入动态变化。这种动态调整机制使得模型能够根据输入样本的复杂度和重要性，自适应地分配计算资源，从而在保持性能的同时，进一步提升效率和灵活性。

2025-03-28 23:06:40 867

原创 AI大模型底层技术——QLoRA微调

是在 LoRA (Low-Rank Adaptation) 基础上发展起来的一种更高效的参数微调技术，尤其适用于资源极度受限的场景。它在保持 LoRA 优点的同时，进一步通过量化 (Quantization)技术压缩预训练模型，显著降低了内存占用，使得即使在消费级硬件上也能微调大型模型。

2025-03-27 11:43:25 658

原创 AI大模型底层技术——LoRA微调

是一种针对大型预训练语言模型 (LLMs) 的高效微调技术。它旨在解决全参数微调所带来的计算和存储成本问题。冻结预训练模型的原始参数，并通过引入少量可训练的低秩矩阵来模拟参数更新。这样，在微调过程中，只需要优化这些低秩矩阵的参数，而不需要修改原始模型的参数，从而大大减少了需要训练的参数量。

2025-03-27 11:29:18 2023

原创 AI深度思考系列——幻觉(Hallucination)

在大型语言模型（LLMs）的语境下，“幻觉”指的是模型生成的内容与现实世界不符、缺乏事实依据，甚至是完全虚构捏造的现象。简单来说，模型会“一本正经地胡说八道”。幻觉不仅仅是简单的错误，而是一种模型自信地、看似合理地产生错误信息的能力。

2025-03-26 12:39:40 755

原创 AI深度思考系列——无意识“投毒”

猫哥崇拜的某大佬继续说：即使有了大模型，感觉搜索引擎和问答网站（不是某贴8）还是有存在价值的，因为能留下来的很多事经过验证的答案，甚至可以直接搜索行业白皮书等，后者就更加是真专家的思想升华总结了。”），而非拆解问题、明确约束条件（如“基于2023年IMF报告，分析某国通胀的三种应对策略”）。随着工具链完善和用户认知升级，人机协同的“增强智能”模式将逐步成为主流。这种低效使用不仅可能浪费时间和资源，还可能因错误信息的反复输入和输出导致模型生成质量的下降（即“无意投毒”）。，反而延缓问题解决。

2025-03-26 11:42:37 442

原创 AI深度思考系列——大模型被当成了某度

猫哥崇拜的某大佬说：随着AI大模型的不断科普，很多人只是把大模型当百度用。于是对于一些复杂的问题，一个大模型没解决，就换下一个大模型，结果得到差不多的答案，然后换prompt，还是得不到答案，幻觉很严重，然后无限循环，直至崩溃。猫哥第一反应，为什么我没想到这些？大佬就是大佬！

2025-03-25 23:22:18 774

原创 DeepSeek底层揭秘——GEMM

GEMM (General Matrix Multiplication) 指的是通用矩阵乘法，是线性代数中一个基础且核心的运算。在机器学习，特别是深度学习领域，GEMM 占据了绝大部分的计算量。DeepSeek 开源的 GEMM 库，专注于提供极致性能的矩阵乘法运算，针对不同的硬件平台（如 CPU、GPU）进行深度优化，旨在加速 AI 模型的训练和推理过程。

2025-03-25 23:06:09 1463

原创 DeepSeek底层揭秘——deepEP

deepEP (DeepSeek EndPoint) 是 DeepSeek 开源的一款高性能、低延迟的分布式通信库，专为大规模深度学习训练和推理场景设计。它旨在优化分布式计算环境中的通信效率，特别是在节点间数据交换、梯度同步、模型分发等方面，能够显著提升训练速度和推理性能。deepEP 的设计目标是提供一种易于使用、高度灵活且性能卓越的通信解决方案，以满足日益增长的 AI 模型规模和数据量需求。

2025-03-24 22:48:47 1465

原创 DeepSeek底层揭秘——EPLB

是DeepSeek团队开源的一套针对于大规模并行任务（如分布式AI训练任务）负载均衡问题的弹性、智能、并行调度平台。其设计目的是优化大规模GPU/ CPU集群资源的高效管理、任务实时分配与并发执行，动态地将负载分布到计算节点上，进行高效的计算资源利用率与最优的任务执行性能。与传统网络层负载均衡（如 NGINX、HAProxy）或云原生负载均衡（如 K8s的Ingress）截然不同的是，EPLB关注的是计算资源粒度的负载均衡，尤其注重异构硬件场景（CPU、GPU、TPU、FPGA）资源管理。

2025-03-24 22:40:18 1075

原创 ACP科普：几种常见的估算方法

作为敏捷开发中的一项重要实践，旨在帮助团队预测任务的工作量、时间、复杂度等，并为产品交付做出更有效的计划。敏捷估算方法可以帮助团队成员协调一致、透明化进度，并确保在迭代周期内能够按时交付高质量的产品。下面我会详细介绍一些常见的敏捷估算方法，并总结其目标、过程、参与角色及注意事项。

2025-03-14 17:24:03 696

原创 ACP科普：客户是否参加retrospective会议

在的语境下，（回顾会议）是敏捷方法论（如Scrum）中的一个重要组成部分。它帮助团队反思和改进，以不断提高工作效率、质量和团队协作。

2025-03-14 16:07:46 912

原创 DeepSeek底层揭秘——交互指令集

【代码】DeepSeek底层揭秘——交互指令集。

2025-03-04 08:13:41 487

原创 DeepSeek底层揭秘——Smallpond

Smallpond 是一个专为大规模 AI 训练设计的高性能、分布式数据加载和预处理框架。它由上海交通大学 IPADS 实验室开发，旨在解决 AI 训练中数据 I/O 瓶颈问题，特别是与 3FS 文件系统结合使用时，能够显著提升数据加载和预处理的效率。Smallpond 的设计理念是“小数据池”（small pond），通过将大规模数据集划分为多个小数据块（chunks），并利用分布式缓存和并行处理技术，实现高效的数据访问和预处理。

2025-03-03 12:46:23 1442

原创 DeepSeek底层揭秘——3FS

3FS（Three-Level File System）是一种创新的分布式文件系统，由上海交通大学 IPADS 实验室开发，旨在解决大规模数据中心环境中传统文件系统在元数据管理、扩展性、性能和可靠性方面的挑战。3FS 采用了一种独特的三层元数据管理架构，将文件系统的元数据分为三个层次：目录服务器（Directory Server, DS）、元数据服务器（Metadata Server, MDS）和存储服务器（Storage Server, OSS），从而实现高性能、高可扩展性和高可靠性。

2025-03-03 12:27:31 1492

原创可观测之Tracing-eBPF生态和发展

eBPF已经不仅仅是一个内核技术，而是一个蓬勃发展的生态系统，涵盖了各种工具、库和项目，为可观测性、网络、安全等领域提供了强大的支持。eBPF已经成为构建现代可观测性解决方案的关键技术，为可观测性带来了更广阔的前景。

2025-03-01 20:02:59 1102

原创可观测之Tracing-bpftrace

bpftrace是基于eBPF（extended Berkeley Packet Filter）技术的高级跟踪工具。eBPF是Linux内核中的一个虚拟机，允许用户在内核空间安全、高效地运行自定义的程序（称为eBPF程序）。bpftrace可以作为APM、安全监控、系统诊断等工具的核心组件，实现工程化应用。

2025-03-01 19:53:33 1222

原创 AI大模型-提示工程学习笔记22-元提示(meta-prompting)

是一种利用大语言模型 (LLM) 本身来生成、优化或选择提示（Prompt）的提示技术。与传统的由人类手动设计提示不同，Meta-Prompting 将提示的生成过程也交给 LLM 来完成，从而实现提示的自动化和自适应。通过利用 LLM 的生成能力和上下文学习能力，Meta-Prompting 可以生成更有效、更符合特定任务需求的提示，从而提高 LLM 在各种任务中的性能。

2025-02-28 22:10:16 1352

空空如也

空空如也