突破性进化:放弃思考,通义千问Qwen3-235B-A22B-Instruct-2507重塑大模型能力边界

2025年7月,通义实验室正式发布Qwen3系列旗舰模型——Qwen3-235B-A22B-Instruct-2507。作为非思考模式的重大升级版本,该模型在通用能力、多语言支持与长上下文处理等领域实现跨越式突破,具体有:

  • 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
    大幅增加了多语言长尾知识的覆盖范围。
  • 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
  • 增强了对256K 长上下文的理解能力。
    在这里插入图片描述

模型概述

Qwen3-235B-A22B-Instruct-2507 具有以下特点:

  • 类型:因果语言模型
  • 训练阶段:预训练 & 后训练
  • 参数数量:总共 235B,激活 22B
  • 非嵌入参数数量:234B
  • 层数:94 层
  • 注意力头数(GQA):Q 为 64 个,KV 为 4 个
  • 专家数量:128 个
  • 激活的专家数量:8 个
  • 上下文长度:原生支持 262,144

注意:该模型仅支持非思考模式,并且不会在其输出中生成 块。同时,不再需要指定
enable_thinking=False。

核心革新亮点

  1. 全能性能跃迁

    • 推理与知识:在MMLU-Pro科学测试中得分83.0(较前代↑7.8分),GPQA专业问答准确率达77.5%(超越GPT-4o 10.6分)
    • 数学能力爆发:AIME25数学竞赛题正确率从24.7%→70.3%,HMMT25得分飙升5.5倍
    • 编程实力领跑:MultiPL-E多语言编码测试达87.9%,LiveCodeBench v6突破51.8%
  2. 256K超长上下文新标杆
    原生支持262,144 tokens上下文窗口,实现对复杂文档、代码库的全景解析,长文本理解能力行业领先。

  3. 多语言知识覆盖革命
    显著扩充小语种与长尾知识库,PolyMATH多语言常识测试得分50.2%(较前代↑86%),INCLUDE多语理解达79.5%

  4. 人类偏好深度对齐
    在Arena-Hard v2主观评测中胜率79.2%(超Claude Opus 27.7分),创作类任务表现逼近人类专业水平。

类别测试项目Deepseek-V3-0324GPT-4o-0327Claude Opus 4 非思考Kimi K2Qwen3-235B-A22B 非思考Qwen3-235B-A22B-Instruct-2507
知识
MMLU-Pro81.279.886.681.175.283.0
MMLU-Redux90.491.394.292.789.293.1
GPQA68.466.974.975.162.977.5
SuperGPQA57.351.056.557.248.262.6
SimpleQA27.240.322.831.012.254.3
CSimpleQA71.160.268.074.560.884.3
推理
AIME2546.626.733.949.524.770.3
HMMT2527.57.915.938.810.055.4
ARC-AGI9.08.830.313.34.341.8
ZebraLogic83.452.6-89.037.795.0
LiveBench 2024112566.963.774.676.462.575.4
编程
LiveCodeBench v6 (25.02-25.05)45.235.844.648.932.951.8
MultiPL-E82.282.788.585.779.387.9
Aider-Polyglot55.145.370.759.059.657.3
对齐
IFEval82.383.987.489.883.288.7
Arena-Hard v2*45.661.951.566.152.079.2
Creative Writing v381.684.983.888.180.487.5
WritingBench74.575.579.286.277.085.2
代理
BFCL-v364.766.560.165.268.070.9
TAU-Retail49.660.3#81.470.765.271.3
TAU-Airline32.042.8#59.653.532.044.0
多语言能力
MultiIF66.570.4-76.270.277.5
MMLU-ProX75.876.2-74.573.279.4
INCLUDE80.182.1-76.975.679.5
PolyMATH32.225.530.044.827.050.2

开发者极速部署方案

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print("content:", content)

高性能部署推荐

  • vLLM
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144
  • SGLang
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144
  • 生产级工具链:集成Qwen-Agent实现复杂工具调用(代码解释器+自定义API)

性能碾压主流模型

测试项GPT-4oClaude OpusQwen3-2507
Zebra逻辑推理52.6-95.0
ARC-AGI认知挑战8.830.341.8
BFCL-v3代理任务66.560.170.9
创作写作(写作评测)75.579.285.2

数据来源:LiveBench 20241125等16项权威基准测试,Qwen3在12项中居首

最佳实践指南

  • 采样参数:Temperature=0.7 + Top-p=0.8 + MinP=0
  • 输出标准化
    • 数学题添加"请逐步推理并将答案置于\boxed{}"
    • 选择题强制JSON格式输出
  • 避坑提示
    • 遇到OOM时缩减上下文至32K
    • 使用presence_penalty=0-2抑制重复生成

结语:Qwen3-235B-A22B-Instruct-2507不仅以多项SOTA成绩重新定义大模型能力天花板,更通过动态专家架构实现性能与效能的完美平衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI浩

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值