Qwen3 即将推出!

图片

最近在 huggingface/transformers 的 pr 中看到来自 Qwen3 和 Qwen3MoE 的请求。

原文:https://github.com/huggingface/transformers/pull/36878

图片

浏览代码可以看到这次的更新有:

  • https://huggingface.co/Qwen/Qwen3-15B-A2B (MOE model)

  • https://huggingface.co/Qwen/Qwen3-8B-beta

  • Qwen/Qwen3-0.6B-Base

看来本次针对更新的都是一些小参数的模型,比较期待有一个 30-40B 的 MoE

与传统 MoE 的差异

特性:

  • 路由策略: 传统MoE采用全局路由,即所有专家参与计算。Qwen3Moe采用稀疏路由,仅Top-K个专家参与计算。

  • 负载均衡: 传统MoE没有显式优化,容易出现专家坍塌。Qwen3Moe集成load_balancing_loss,以惩罚不均衡的情况。

  • 计算复杂度: 传统MoE的计算复杂度为O(N×E),其中N为序列长度,E为专家数。Qwen3Moe的计算复杂度为O(N×K),其中K为Top-K参数。

  • 动态适应性: 传统MoE使用固定频率的RoPE。Qwen3Moe动态调整RoPE频率,属于动态类型。

与 Qwen2.5 的比较

特性:

  • RoPE类型: Qwen-2.5仅支持静态RoPE。Qwen3Moe支持dynamic、yarn、llama3等多种类型。

  • 稀疏层调度: Qwen-2.5未明确支持。Qwen3Moe通过mlp_only_layers和sparse_step实现灵活控制。

  • 注意力后端: Qwen-2.5仅基础实现。Qwen3Moe集成Flash Attention 2和SDPA加速。

  • 生成缓存管理: Qwen-2.5使用传统KV缓存。Qwen3Moe支持滑动窗口缓存(sliding_window)。

  • MoE实现: Qwen-2.5未使用MoE。Qwen3Moe实现稀疏MoE + 负载均衡损失。

Qwen3Moe 的优势

特性:

  • 动态 RoPE:支持多种缩放策略,适配长序列和不同硬件。

  • 稀疏 MoE:通过 Top-K 路由和负载均衡损-失,提升模型容量与训练稳定性。

  • 高效注意力:集成 Flash Attention 2 和 SDPA,优化生成速度。

  • 模块化设计:继承并扩展 Llama/Mistral 组件,提升代码可维护性。

  • 生成优化:滑动窗口缓存和动态 KV 更新,降低解码内存占用。

总结

目前在小参数模型中,个人总体使用感觉来说,qwen 模型是首选,特别是此次将要更新的 Qwen3-15B-A2B,15B 总参数量的稀疏 MoE 模型,实际激活参数量为 2B,所以要求的硬件设备资源更低,速度可以更快

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

### Qwen3 的身份与相关信息 Qwen3 是阿里巴巴集团旗下的通义实验室自主研发的超大规模语言模型,是 Qwen 系列的最新版本。它在性能、训练方法和资源效率方面都有显著的提升。Qwen3 提供多个版本,包括不同参数规模的 Dense 模型和 MoE(Mixture of Experts)模型,以满足不同的应用场景需求。 #### 性能与版本 Qwen3 的 Dense 模型有多个版本,参数量从 1.7B 到 32B 不等,包括 Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B 和 Qwen3-32B。这些模型在性能上达到了 Qwen2.5 更大模型的水平。例如,Qwen3-1.7B 的表现与 Qwen2.5 的 3B 模型相当,Qwen3-14B 则与 Qwen2.5 的 14B 模型表现相当[^1]。 此外,Qwen3推出了 MoE 模型,这种模型在提供相同推理能力的同时,仅需激活 10% 的参数,极大地节省了计算资源。这使得 Qwen3 在处理复杂任务时能够更高效地利用硬件资源,降低计算成本。 #### 训练方法 Qwen3 的训练方法经过多阶段优化,包括指令微调与人类反馈强化学习,以提升交互体验和输出质量。通过这些训练步骤,Qwen3 能够更好地理解用户的指令,提供更准确的回答[^1]。 #### 应用场景 Qwen3 适用于多种自然语言处理任务,包括但不限于文本生成、对话理解、代码生成和多语言翻译。其强大的自然语言处理能力使其成为企业级应用和研究项目的理想选择。 #### 优势 Qwen3 的优势在于其高效性与准确性。通过 MoE 模型,Qwen3 可以在使用较少计算资源的情况下达到与更大模型相当的性能。这种效率的提升对于需要大规模部署的语言模型来说尤为重要。 #### 安全性与合规性 为了保障内容安全,Qwen3 集成了过滤机制与合规性校准,防止不当信息的传播。这些措施确保了 Qwen3 在提供强大功能的同时,也能够遵循相关的法律法规和伦理标准。 ```python # 示例代码:使用 Qwen3 进行文本生成 from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3") model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen3") input_text = "你好,Qwen3!" input_ids = tokenizer.encode(input_text, return_tensors="pt") # 生成文本 output = model.generate(input_ids, max_length=50) print(tokenizer.decode(output[0], skip_special_tokens=True)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值