- 博客(284)
- 收藏
- 关注
原创 文本分块的优化策略-语义完整性、控制长度、重叠切分、结合模型,考虑大模型输入限制
在文本切分过程中,应尽量避免将句子拆分。句子是表达完整语义的基本单位,拆分句子可能导致语义破碎,影响向量化表示的准确性和模型对文本的理解。例如,句子中包含的主谓宾结构或修饰关系在被截断后,会失去原有的含义,使得模型难以准确捕捉文本的核心内容。
2025-08-27 19:21:37
695
原创 RAG分块策略,固定大小、文档结构、语义理解、多模态文档
场景:适用于文档结构较为一致,内容长度相似的情况。通常按字数、标记数或字符数。描述:将文档等分为固定大小的块,简单直接。
2025-08-27 17:44:32
422
原创 sageattention低比特量化注意力机制,比FlashAttention快5 倍
实现了 5 倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了 1040 TOPS 的速度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!
2025-08-21 18:12:55
271
原创 选择分布更均匀的数据可以提高训练效率,同时增强性能
数据的质量和多样性已经被广泛研究,并被证明可以提升模型性能。然而,对于复杂任务,尤其是那些先验知识有限的任务,是否存在其他定量且通用的数据选择原则,能够持续改善性能,这一点尚不明确。在本文中,我们证明了选择分布更均匀的数据可以提高训练效率,同时增强性能。具体来说,我们确定了更均匀(偏差更小)的分布会导致数据点之间的最小成对距离 h min增大,并证明了较小的 h min会减缓梯度下降(GD)的训练动态。此外,我们从理论上证明了随着 h min的增加,神经网络的近似误差会减小。
2025-08-21 17:15:03
877
原创 监督微调SFT->强化微调RFT->动态微调DFT->统一微调UFT
SFT通常与强化学习(RL)方法相比泛化能力有限。RL利用明确的奖励或验证信号,使模型能够探索多种策略,从而实现更强的泛化能力。然而,RL方法通常需要大量的计算资源,对超参数调整敏感,并且依赖于奖励信号的可用性,这些条件在实践中并不总是可行的。即使RL可行,SFT在快速获得RL可能难以独立发现的专家行为模式方面仍具有优势揭示了标准SFT梯度隐含地编码了一个有问题的奖励结构,这可能会严重限制模型的泛化能力。
2025-08-21 16:01:56
1574
原创 BeyondWeb:大规模预训练合成数据的启示
摘要使用的 prompt:总结以下文本。直接从总结开始。不要说其他任何话。简单摘要与 cosmopedia 的效果近似,且摘要所使用的计算资源远少于 cosmopediaHQ 表示高质量的网络数据,LQ 表示低质量的网络数据。深蓝色的线表示 BeyondWeb(50.4%),深青色的线表示 HQ Synth + HQ Web(49.2%),其中合成数据是高质量网络样本的改写版本,浅青色的线表示 LQ Synth + HQ Web(48.6%)。
2025-08-20 18:15:03
827
原创 大模型问题:幻觉分类+原因+各个训练阶段产生幻觉+幻觉的检测和评估基准
Cossio的工作从理论到实践,系统重塑了我们对LLM幻觉的理解——它不再是单纯的“错误”或“缺陷”,而是计算模型的根本属性,必须通过科学的分类、因果分析及多元策略加以管理。该研究为LLM安全应用提供了坚实的理论支撑与操作指南,推动AI技术向负责任、可控的方向发展。
2025-08-19 15:45:58
865
原创 减少幻觉的方法:数据集优化,模型和推理技术,训练方法优化,prompt工程、Self-reflection自我反思,Few-shot learning (with RAG),Instruction F
在实际生产落地中,我们会循序渐进的采用如下策略来提高准确性,降低幻觉:策略 难度 数据要求 准确性提升Prompt engineering 低 无 26%Self-reflection 低 无 26-40%Few-shot learning (with RAG) 中 少量 50%Instruction Fine-tuning 高 中等 40-60%
2025-08-19 15:39:33
1213
原创 大模型生成-采样参数
从所有候选token中,保留概率最高的K个作为候选集。模型只会在这K个token中进行采样,能够有效过滤掉低概率、无关或不合理的词汇,从而提升生成内容的质量和相关性。K值越小,输出越确定;K值越大,输出越多样。
2025-08-19 15:28:53
323
原创 MoE及其优化技术->COMET(字节)
关键的技巧在于:并不为每个 token 启用所有的专家模块(experts),而是由一个「路由器(router)」为每个 token 挑选出其中一小部分进行激活。MoE 的这种设计使得模型拥有极大的参数容量,在训练阶段能吸收更多知识;但在推理时由于稀疏激活,大幅降低了计算开销。
2025-08-16 15:20:30
1041
原创 GFPO:组过滤策略优化
GRPO 的一个关键限制在于它依赖于单一的标量奖励信号,这使得它难以联合优化多个期望得到的响应属性,例如简洁性和准确度。结果就是,GRPO 确实能提高准确度,但也会让响应长度大幅增加。GFPO 正是为了解决这个问题而生的,它可以同时优化多个响应属性。虽然将简洁性或信息量等所需属性直接编码到标量奖励中是看似自然的做法,但同时编码多个特性却可能很难,尤其是在必须保证正确性的情况下。数据过滤则是一种隐式、灵活的奖励塑造形式 —— 类似于使用选择性采样来放大特定模型行为的迭代式自我改进方法。
2025-08-15 10:50:35
970
原创 GMPO:通过几何平均改善GRPO的稳定性
GRPO的原理:算术平均奖励GRPO 通过优化一组候选答案(rollouts)的算术平均奖励,在数学、代码生成等任务上取得了显著成效。然而,我们的研究发现,这种基于算术平均的优化机制存在一个根本性的脆弱点。算术平均对于离群值的天然弱点算术平均对离群值(outliers)——在 RL 训练中具体表现为具有极端重要性采样比率的令牌——极为敏感。这些离群值会导致策略更新发生剧烈震荡,使得训练过程不稳定,最终限制了模型的性能上限。GRPO采用裁剪解决稳定问题。
2025-08-14 17:57:32
505
原创 RLHF综述-GRPO之前
论文标题:A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More奖励模型的子主题包括:1. 显式奖励模型与隐式奖励模型;2. 逐点奖励模型与偏好模型;3. 响应层面的奖励与 token 层面的奖励;4. 负偏好优化。反馈的子主题包括:1. 偏好反馈与二元反馈;2. 成对反馈与列表反馈;3. 人类反馈与 AI 反馈强化学习的子主题包括:1. 基于参考的强化学习与无参考的强化学习;
2025-08-14 17:28:12
462
原创 强化学习进化之路(GRPO->DAPO->Dr.GRPO->CISPO->GSPO->GFPO)
GRPO通过优化PPO算法,移除了价值模型,降低了计算开销,同时利用群体相对优势函数和KL散度惩罚,确保策略更新既高效又稳定。想象一下,你是个销售员,这个月业绩10万块,PPO算法就像个精明的老会计,拿着算盘噼里啪啦一顿算,考虑市场行情、产品类型,最后得出结论:“嗯,这10万还算靠谱,但GAE一算,发现你的优势值还不够高,还得再加把劲啊”而GRPO呢,就像老板直接搞了个“内卷大赛”,把所有销售员拉到一个群里,每天晒业绩:“你10万,他15万,她20万……”老板还时不时发个红包,刺激大家继续卷。
2025-08-14 17:24:30
1107
原创 TPO:推理时即时偏好对齐的新方案
论文地址:上海人工智能实验室提出 Test-Time Preference Optimization(测试时偏好优化,TPO)。传统训练时对齐方法(例如RLHF和DPO):需要训练一句话总结:TPO让大模型在每次回答时通过迭代的文本反馈自行调整输出,实现了无需更新模型权重的。
2025-08-14 17:13:30
1015
原创 RAG&agent入口
RAG调研MCP协议RAG->大模型搜索search-R1=========================================================================================训练emb模型+ reranker模型的经验:cls而不是mean token,数据质量重要,难负例重要智能体agent技术介绍与产业分析
2025-08-14 15:37:48
157
原创 continue pretrain
满足以下两个条件,可以去尝试底座模型的词表大部分词表都是有基础字的,比如原来 「北京」 -> [12, 15]。扩了词后,现在假设变成了「北京」-> [10233]。这种因为动了高频词,刘乾试过各种warmup,frozen,都是想要有正面作用,。但多语言的continue pretrain,。。选一个词表来做continue pretrain更合适,对比于底座训练不充分,词表的坑更大。
2025-08-14 15:15:21
541
原创 Transformer结构入口
seq2seq到attention到transformer理解, seq2seq到attention的部分,以及transformer中att部分transformer知识点梳理–问题答案形式–高频面试题transformer结构和代码剖析–transformer的详细结构transformer的各种变体attention与FFN复杂度&模型内存占用估计multihead attention的几个变种,增强表达能力,解决“低秩瓶颈”标准self-attention的几个变种的理解【token对token
2025-08-14 14:16:16
581
原创 传统自然语言处理任务入口
NLP归纳大一览自然语言处理学习路径和知识点一些git模型资源和地址=========================================================================================对话系统综述对话领域一些文章-检索式/问答QA/KBQA=========================================================================================语言模型介绍语言模型中数据
2025-08-14 14:10:23
356
原创 大模型速度优化入口
如果你固定了计算能力,要得到TTFT和Throughput等数据,你需要知道是在Prefilling阶段和Decoding的计算量分别是多少。大模型压缩方式【GPU还是CPU】如何快速估计推理计算量。
2025-08-14 13:58:05
1301
原创 强化学习入口整理
强强化学习基础:强化学习分类,强化学习表示,值函数,策略迭代/值迭代, 主要的强化学习技术(蒙特卡洛学习/时间差分学习,DQN.REINFORCE,策略梯度/PPO/AC/A2C/A3C/DDPG/PDPG/TD3)马科夫过程(MP) -> 马尔科夫奖励过程(MRP) -> 马尔科夫决策过程(MDP)基于策略的迭代和基于价值的迭代(Model-based RL&动态规划)强化学习策略更新方法on-policy与off-policy(重要性采样,q-Learning,sarsa)策略梯度优化之TRPO/
2025-08-14 13:46:02
303
原创 OpenAI官方写的GPT-5 prompt指南
OpenAI官方写的GPT-5 prompt指南来了,看看官方是怎么让GPT-5表现更好的。该指南融汇贯通后,还可用于其他AI大模型。地址:cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide。
2025-08-13 13:56:15
410
原创 word2vector细致分解(CBOW, SKIP_GRAM, 层次soft Max, 负采样)
NGRAM:将词当成一个离散的单元(因此存在一定的局限性,没有考虑到词与词之间的关系)neural network language model:只能处理定长序列,训练慢。使用RNN之后有所改善。
2025-08-06 22:28:24
1012
原创 训练emb模型+ reranker模型的经验:cls而不是mean token,数据质量重要,难负例重要
数据质量至上:无论是Embedding还是Rerank,高质量、领域相关的标注数据是微调成功的最关键因素。垃圾进,垃圾出。困难负样本:对两者都极其重要,尤其是Rerank。收集那些容易被模型混淆的负样本(如相同主题但不相关、部分关键词匹配)。领域适应性:在特定领域(如生物医学、金融、法律)微调通常比通用模型效果显著提升。计算资源:Embedding微调:相对资源友好,可在单张消费级GPU(如3090)上进行。
2025-08-05 00:15:21
858
原创 句子表征-文本匹配--representation-based/interactive-based
1)tf-idf2)Bm253)隐式模型:一般是将query、title都映射到同一个空间的向量,然后用向量的距离或者相似度作为匹配分,例如使用主题模型4)翻译、转换模型:将doc映射到query空间,然后做匹配;或者计算将doc翻译成query的概率(同语言的翻译问题)
2025-08-04 23:46:00
1005
原创 多向量检索:lanchain,dashvector,milvus,vestorsearch,MUVERA
为什么单向量检索会遇到瓶颈?想象图书馆里每本书只能有一个索引标签,当我们想找 “人工智能在医疗领域的应用” 时,可能错过标题为 “机器学习诊断案例” 的书籍。传统单向量检索就像这种单一标签系统,而多向量检索允许为每个文档创建多个 “语义标签”,比如将一本书同时索引到 “人工智能”、“医疗”、“机器学习” 等多个维度。
2025-08-03 14:30:08
886
原创 距离度量-Chamfer距离、Fréchet距离
汇总:Chamfer距离(Chamfer Distance)和Fréchet距离(Fréchet Distance)是两种常用于评估曲线或多线段相似性的度量方法。
2025-08-03 13:58:13
906
原创 信息量,惊奇度,熵、KL散度(相对熵),交叉熵、最大似然估计MLE与最小化交叉熵的等价证明、
熵是平均信息量:对于离散随机变量X,其熵定义为:对于一个特例,p(X=x₀)=1,即随机变量 X 确定性地取值为 x₀,我们可以如下推导:所以,p(X=x₀)=1表示随机变量 X 是一个确定性变量,它总是取值为 x₀,没有任何不确定性。这种情况下:– 随机变量没有任何随机性– 系统处于完全确定的状态– 我们可以100%确定 X 的值熵为0正是反映了这种情况:当系统完全确定(无不确定性)时,熵达到最小值0,不需要任何额外信息就能预测其状态。
2025-08-03 13:44:36
1006
原创 常见的相似度(系数)算法(余弦/皮尔森/杰卡德/Sørensen-Dice指数/Tanimoto系数/对数似然/互信息/信息增益,相对熵/KL散度/TF-IDF/PMI)
汇总余弦相似性 : 方向的量度皮尔森相关系数(Pearson Correlation Coefficient)Jaccard相似系数(Jaccard Coefficient)Sørensen-Dice指数Tanimoto系数(广义Jaccard相似系数)对数似然相似度/对数似然相似率互信息/信息增益,相对熵/KL散度信息检索–词频-逆文档频率(TF-IDF)词对相似度–点间互信息。
2025-08-03 12:56:48
612
原创 似然函数-对数似然函数-最大似然估计MLE--计算梯度方向
在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:离散:连续此处并非条件概率密度函数。似然函数的主要用法在于比较它相对取值,虽然这个数值本身不具备任何含义。
2025-08-03 12:50:20
936
原创 门控激活函数:GLU/GTU/Swish/HSwish/Mish/SwiGLU
是一种通过自身机制动态调节信息流动的激活函数,其核心在于模型能够根据输入数据自身的特征自动调整信息传递的强度,无需外部控制信号。核心特点。
2025-07-29 15:11:21
939
原创 激活函数补充:Maxout、Softplus、Softmax、Bent identity弯曲恒等、Sinusoid正弦、Sinc函数、Gaussian、Absolute
在 Maxout 层,激活函数是输入的最大值,因此只有 2 个 maxout 节点的多层感知机就可以拟合任意的凸函数。单个 Maxout 节点可以解释为对一个实值函数进行分段线性近似 (PWL) ,其中函数图上任意两点之间的线段位于图(凸函数)的上方。。然而,这种激活函数并不被视为典型,其计算需要人工指定超参数,因此可能增加模型调优的复杂性。
2025-07-29 15:07:33
331
原创 ELU系列激活函数:ELU, SELU, GELU
SELU 的输出是归一化的,这可称为内部归一化(internal normalization),因此事实上其所有输出都是均值为 0 且标准差为 1。与 ReLU 相比,ELU有负值,这会使激活的平均值接近零。与 Leaky ReLU 类似,尽管理论上比 ReLU 要好,但目前在实践中没有充分的证据表明 ELU 总是比ReLU 好。这里有一篇使用 SELU 的 CNN 论文:https://arxiv.org/pdf/1905.01338.pdf。年提出的,但在实际应用中还是一个相当新颖的激活函数。
2025-07-29 15:04:01
416
原创 ReLU 系列激活函数:Leaky ReLU、PReLU、RReLU 、CRelu、ReLU6、swish(SiLU)、SReLU
ReLU函数是深度学习中较为流行的一种激活函数,相比于 sigmoid 函数和 tanh 函数,它具有如下当输入为正时,不存在梯度饱和问题。计算速度快得多。ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
2025-07-29 14:59:44
984
原创 KV-cache优化-- token选择和修剪H2O/StreamLLM/VATP,后处理压缩技术FastGen/DMC/范数,体系结构重设计MQA/GQA/MLA/SnapKV/YOCO
KV-Cache仍然是一个活跃的研究领域,既提供了理论上的见解,也带来了实际的改进。虽然MQA和GQA通过头共享来实现这一目标,MLA则采用低秩潜在压缩技术,在保持多头注意力的优点的同时,减少了KV缓存的大小。本文提出了一个令人惊讶的观察:缓存 KV 对的L2范数与注意力分数之间存在明确的相关性,低L2范数的键嵌入通常会导致解码时的高注意力分数。通过压缩表示,MLA保持了每个头的灵活性,不同于MQA的完全头共享。优点:将 KV 缓存大小减少了(注意力头的数量),显著降低了内存带宽开销。
2025-07-29 00:12:12
574
原创 稀疏Attention(sprse, reformer, linformer, Nvidia-StarAttention, 月之暗面MoBA , native sparse attention(NS)
这篇文章要解决的问题是长上下文建模的高计算成本问题。该问题的研究难点包括:如何在保持模型能力的前提下提高效率,如何实现端到端训练以减少预训练计算量而不牺牲模型性能。该问题的研究相关工作有:KV缓存淘汰方法、块状KV缓存选择方法、采样、聚类或哈希选择方法等。然而,这些方法在实际部署中往往未能达到理论上的加速效果,且主要集中于推理阶段,缺乏有效的训练时支持。总体结论:本文提出的NSA架构通过集成层次化令牌压缩和块状令牌选择在可训练架构中,实现了加速训练和推理,同时保持了全注意力性能。
2025-07-29 00:06:40
988
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人