今年年初Deepseek火了之后,大模型百家争鸣。
仅仅是编程应用这块,先是套壳VSCode的Cursor 、然后是命令行模式的Claude Code、Gemini CLI,又出来一个Warp,大家都在抢流量,token收费是真香,尤其是深度思考就好比计程车按平台导航兜大圈。
趁着今天大佬写了一个总结,跟着盗图梳理一下大模型这个领域的牛马天天都在加班搞什么。。。下图是各家的大模型架构图,结构狂复杂的魔改就为了三个事省算力、省内存、提效果。
DeepSeek V3/R1——卷王开年
搞了两个关键技术:MLA和MoE
-
Multi-Head Latent Attention (MLA)
通过引入潜在变量(latent variables)扩展传统多头注意力机制,允许模型关注输入序列中未直接观察到的隐含结构, 说人话就是把上图中的KV矩阵压缩降维了,减少计算量。用图解释就是下图中,向量V和K能省就省,要么共享VK,要么弄个小模型降维VK,显然共享VK效果不灵,所以MLA降维方法一战成名,保证效果的基础上尽量省内存。
-
Mixture-of-Experts (MoE)
-
混合专家模式,意思就是在Transformer架构中的FeedForward模块主要负责通过 多头注意力机制和 全连接层对输入数据进行非线性变换,原本这里面参数很多,如果Transformer层重复很多次,比如V3模型重复了61次,那参数量就更多。在 MoE(结构里,原本只用 1 个 FeedForward 模块,现在换成了好多个 FeedForward 模块,总参数量立刻暴涨,但我们并不会让每个词都用上全部专家,而是由“路由器”给每个词只挑极少数专家干活。DeepSeek-V3 每个 MoE 层有 256 个专家,总参数量 6710 亿;但每次推理只开 9 个专家(1 个共享专家 + 8 个路由器挑的专家),实际用到的只有 370 亿参数,而不是全部 6710 亿。所谓的一个“共享专家”,意思是它对每个词都始终在线。
归一化层的位置和算法—精细化内卷
GPT 的架构中 把原先的 LayerNorm 换成了 RMSNorm,然后调换一下位置。原始 Transformer把两个归一化层分别放在注意力模块后和FeedForward 模块之后,这种排兵布阵也叫Post-LN(或Post-Norm)。而 GPT 以及后来大多数模型,则把归一化层挪到了这两个模块之前,称为 Pre-LN(Pre-Norm)。因为有大聪明研究放前面便于收敛。随后Google公司的Gemma2 和Gemma3模型又用了一种QKNorm归一化方法(2023年的技术),放在上文提到的Multi-Head Attention (MHA)模块里对Q和K进行归一化。
Google公司并没有走Deepseek的MLA路子,而是使用滑动窗口的trick来节省算力,这个技术是2020年的研究成果。
如下图所示,意思就是通过限定在一定token范围内的注意力(对角阵替代三角阵)来节省计算资源。Gemma 2 其实已经在用滑动窗口注意力了。Gemma 3 的不同之处在于,它重新调整了“全局注意力”和“局部滑动窗口注意力”的比例:
-
Gemma 2 是“1:1”混合——每两层里一层全局、一层局部,局部窗口大小 4096。
-
Gemma 3 改成“5:1”——每 6 层里只有 1 层全局,其余 5 层都是局部,而且局部窗口缩小到 1024。这样一来,模型把更多算力集中在邻近 token 上,整体更省资源。
当然,精细化内卷怎么少的了Norm层的摆放姿势呢?前后的归一化必须前后都配齐才彰显大厂的底蕴和功力。
随后为了把模型塞进手机等小型设备里,Google又搞了 MatFormer(Matryoshka Transformer),共享的完整 Transformer 主干,但可以像套娃一样切成多个更小的子模型,每个切片都经过训练,可以独立工作;推理时只需跑你真正需要的那一段,而不必启动整个大模型。
LIama的仿制
如上图所示,LIama4模型和DeepSeekV3架构很像,区别如下:
-
注意力机制
• Llama 4 沿用传统的 Grouped-Query Attention(分组查询注意力)。
• DeepSeek-V3 则采用我们前面提到的 Multi-Head Latent Attention(多头潜空间注意力)。 -
参数量与激活量
• 总参数量上,DeepSeek-V3 比 Llama 4 Maverick 大约多出 68%。
• 但在推理时,DeepSeek-V3 一次激活 370 亿参数,而 Llama 4 Maverick 仅激活 170 亿,前者是后者的两倍多。 -
专家配置
• Llama 4 Maverick 走“少而精”路线:每次只激活 2 个专家,但每个专家的隐藏维度达 8,192。
• DeepSeek-V3 则是“多而细”:每次激活 9 个专家,每个专家的隐藏维度为 2,048。 -
层间排布
• DeepSeek-V3 从第 4 层开始,几乎每层都用 MoE。
• Llama 4 Maverick 则是“隔层交替”:一层 MoE、一层传统稠密模块。
阿里的进击—Qwen3
Qwen3 直接推出稠密版本和两个 MoE 版本:30B-A3B 和 235B-A22B
-
稠密模型:结构简单、微调容易、部署省心,适配各种硬件。
-
MoE 模型:专为“大规模推理”优化。同样预算下,它能用更大的总参数训练,从而装下更多知识,但推理时只激活其中一小部分,省钱又高效。
一句话:Qwen3 系列“一把抓”——
稠密版负责“稳、简、易调”,MoE 版负责“大、省、快上量”。
DeepSeek-V3 与 Qwen3 235B-A22B 的架构几乎一模一样,Qwen3 砍掉了共享专家。
位置编码—能省则省
在 Transformer 大模型里,自注意力本身“看不出”词语的顺序,所以通常都要额外告诉它“谁在前、谁在后”。
绝对位置嵌入的做法就是:在词向量上再叠一层“位置向量”,让模型知道每个词的位置。
RoPE 的做法则不同:它把查询向量 q 和键向量 k 按照 token 的位置做旋转变换,从而注入相对位置信息。
而在 NoPE 层里,完全不添加任何位置信号:没有固定的、没有可学习的、也没有相对的——什么都没有。
尽管如此,模型仍能通过“因果注意力掩码”知道哪些 token 在前、哪些在后。这个掩码阻止每个 token 去“看”未来的 token,因此位置 t 的 token 只能访问位置 ≤ t 的内容,从而保留了自回归的顺序。。在常规梯度下降训练过程中,如果这对优化目标有利,大模型就会自发学会利用这种隐式顺序。NoPE 论文不仅证明了“不注入任何位置信息也玩得转”,还发现 NoPE 在长序列泛化上表现更好:随着输入序列变长,小参数模型的性能下降得更慢。
卷王的交接—Kimi 2
Kimi 2 最近在整个 AI 圈子里炸开了锅——因为它不仅开源权重,而且性能直接对标谷歌 Gemini、Anthropic Claude 和 OpenAI ChatGPT 这些闭源旗舰。一大亮点是:它没有用传统的 AdamW,而是换成了新出的 Muon 优化器的一个变种。训练 loss 曲线非常好看下降速度——又快又稳
Kimi K2 的架构几乎就是 DeepSeek-V3 的“放大微调版”,主要变化只有三点:
-
专家更多:MoE 层的专家数从 256 个增加到 384 个,进一步拉高稀疏度,换来同等算力下的更大模型容量。
-
注意力头更少:MLA的头数从 128 降到 64,直接砍半,降低了长上下文场景下的显存和计算开销。
-
前置密集层更少:原3 个前置 Dense 层压缩为 1 个,进一步减少推理时的激活参数。
结果就是:
-
总参数 ≈ 1 T(万亿),激活参数 ≈ 32 B(320 亿),激活比例仅 3 % 左右;
-
推理时 依旧只唤醒 8 个专家 + 1 个共享专家,显存压力与 DeepSeek-V3 持平甚至略优;
-
训练 完全重新来过—没有复用 DeepSeek-V3 权重,而是用 Moonshot 自研的 MuonClip 优化器在 14 T token 上从 0 开始训练。
如何学习AI大模型 ?
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
(👆👆👆安全链接,放心点击)
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
(👆👆👆安全链接,放心点击)