2025年7月,通义实验室正式发布Qwen3系列旗舰模型——Qwen3-235B-A22B-Instruct-2507。作为非思考模式的重大升级版本,该模型在通用能力、多语言支持与长上下文处理等领域实现跨越式突破,具体有:
- 显著提升了通用能力,包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用。
大幅增加了多语言长尾知识的覆盖范围。 - 更好地符合用户在主观和开放式任务中的偏好,能够提供更有帮助的响应和更高质量的文本生成。
- 增强了对256K 长上下文的理解能力。
模型概述
Qwen3-235B-A22B-Instruct-2507 具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练 & 后训练
- 参数数量:总共 235B,激活 22B
- 非嵌入参数数量:234B
- 层数:94 层
- 注意力头数(GQA):Q 为 64 个,KV 为 4 个
- 专家数量:128 个
- 激活的专家数量:8 个
- 上下文长度:原生支持 262,144
注意:该模型仅支持非思考模式,并且不会在其输出中生成 块。同时,不再需要指定
enable_thinking=False。
核心革新亮点
-
全能性能跃迁
- 推理与知识:在MMLU-Pro科学测试中得分83.0(较前代↑7.8分),GPQA专业问答准确率达77.5%(超越GPT-4o 10.6分)
- 数学能力爆发:AIME25数学竞赛题正确率从24.7%→70.3%,HMMT25得分飙升5.5倍
- 编程实力领跑:MultiPL-E多语言编码测试达87.9%,LiveCodeBench v6突破51.8%
-
256K超长上下文新标杆
原生支持262,144 tokens上下文窗口,实现对复杂文档、代码库的全景解析,长文本理解能力行业领先。 -
多语言知识覆盖革命
显著扩充小语种与长尾知识库,PolyMATH多语言常识测试得分50.2%(较前代↑86%),INCLUDE多语理解达79.5%。 -
人类偏好深度对齐
在Arena-Hard v2主观评测中胜率79.2%(超Claude Opus 27.7分),创作类任务表现逼近人类专业水平。
类别 | 测试项目 | Deepseek-V3-0324 | GPT-4o-0327 | Claude Opus 4 非思考 | Kimi K2 | Qwen3-235B-A22B 非思考 | Qwen3-235B-A22B-Instruct-2507 |
---|---|---|---|---|---|---|---|
知识 | |||||||
MMLU-Pro | 81.2 | 79.8 | 86.6 | 81.1 | 75.2 | 83.0 | |
MMLU-Redux | 90.4 | 91.3 | 94.2 | 92.7 | 89.2 | 93.1 | |
GPQA | 68.4 | 66.9 | 74.9 | 75.1 | 62.9 | 77.5 | |
SuperGPQA | 57.3 | 51.0 | 56.5 | 57.2 | 48.2 | 62.6 | |
SimpleQA | 27.2 | 40.3 | 22.8 | 31.0 | 12.2 | 54.3 | |
CSimpleQA | 71.1 | 60.2 | 68.0 | 74.5 | 60.8 | 84.3 | |
推理 | |||||||
AIME25 | 46.6 | 26.7 | 33.9 | 49.5 | 24.7 | 70.3 | |
HMMT25 | 27.5 | 7.9 | 15.9 | 38.8 | 10.0 | 55.4 | |
ARC-AGI | 9.0 | 8.8 | 30.3 | 13.3 | 4.3 | 41.8 | |
ZebraLogic | 83.4 | 52.6 | - | 89.0 | 37.7 | 95.0 | |
LiveBench 20241125 | 66.9 | 63.7 | 74.6 | 76.4 | 62.5 | 75.4 | |
编程 | |||||||
LiveCodeBench v6 (25.02-25.05) | 45.2 | 35.8 | 44.6 | 48.9 | 32.9 | 51.8 | |
MultiPL-E | 82.2 | 82.7 | 88.5 | 85.7 | 79.3 | 87.9 | |
Aider-Polyglot | 55.1 | 45.3 | 70.7 | 59.0 | 59.6 | 57.3 | |
对齐 | |||||||
IFEval | 82.3 | 83.9 | 87.4 | 89.8 | 83.2 | 88.7 | |
Arena-Hard v2* | 45.6 | 61.9 | 51.5 | 66.1 | 52.0 | 79.2 | |
Creative Writing v3 | 81.6 | 84.9 | 83.8 | 88.1 | 80.4 | 87.5 | |
WritingBench | 74.5 | 75.5 | 79.2 | 86.2 | 77.0 | 85.2 | |
代理 | |||||||
BFCL-v3 | 64.7 | 66.5 | 60.1 | 65.2 | 68.0 | 70.9 | |
TAU-Retail | 49.6 | 60.3# | 81.4 | 70.7 | 65.2 | 71.3 | |
TAU-Airline | 32.0 | 42.8# | 59.6 | 53.5 | 32.0 | 44.0 | |
多语言能力 | |||||||
MultiIF | 66.5 | 70.4 | - | 76.2 | 70.2 | 77.5 | |
MMLU-ProX | 75.8 | 76.2 | - | 74.5 | 73.2 | 79.4 | |
INCLUDE | 80.1 | 82.1 | - | 76.9 | 75.6 | 79.5 | |
PolyMATH | 32.2 | 25.5 | 30.0 | 44.8 | 27.0 | 50.2 |
开发者极速部署方案
from modelscope import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Instruct-2507"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=16384
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
content = tokenizer.decode(output_ids, skip_special_tokens=True)
print("content:", content)
高性能部署推荐:
- vLLM:
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144
- SGLang:
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144
- 生产级工具链:集成Qwen-Agent实现复杂工具调用(代码解释器+自定义API)
性能碾压主流模型
测试项 | GPT-4o | Claude Opus | Qwen3-2507 |
---|---|---|---|
Zebra逻辑推理 | 52.6 | - | 95.0 |
ARC-AGI认知挑战 | 8.8 | 30.3 | 41.8 |
BFCL-v3代理任务 | 66.5 | 60.1 | 70.9 |
创作写作(写作评测) | 75.5 | 79.2 | 85.2 |
数据来源:LiveBench 20241125等16项权威基准测试,Qwen3在12项中居首
最佳实践指南
- 采样参数:Temperature=0.7 + Top-p=0.8 + MinP=0
- 输出标准化:
- 数学题添加
"请逐步推理并将答案置于\boxed{}"
- 选择题强制JSON格式输出
- 数学题添加
- 避坑提示:
- 遇到OOM时缩减上下文至32K
- 使用presence_penalty=0-2抑制重复生成
结语:Qwen3-235B-A22B-Instruct-2507不仅以多项SOTA成绩重新定义大模型能力天花板,更通过动态专家架构实现性能与效能的完美平衡。