论文:https://arxiv.org/pdf/2407.10671
摘要
本报告介绍了最新的大型语言模型和多模态模型Qwen2系列。该系列包括参数范围从0.5亿到720亿的基础型和指令微调型语言模型,涵盖密集模型和混合专家模型。Qwen2在多个基准测试中表现优异,超越了之前的开源模型,并在语言理解、生成、多语言能力等方面展现出竞争力。旗舰模型Qwen2-72B在多项基准测试中得分领先,指令微调版本Qwen2-72B-Instruct在多语言翻译和实时代码基准测试中表现出色。Qwen2支持约30种语言,显示出强大的多语言能力。模型权重已在Hugging Face、ModelScope和GitHub上公开,提供量化、微调和部署资源,以促进社区创新和应用研究。
1 介绍
随着ChatGPT的兴起,全球对大型语言模型的关注度激增,Llama系列模型进一步推动了开源社区的热情。近期,Claude-3 Opus和GPT-4o在Chatbot Arena上表现出色,Llama-3被认为达到了GPT-4的水平。Qwen、Mistral、Gemma等模型以开源方式发布,追求类似OpenAI GPT系列的进步。Qwen系列近期推出了Qwen1.5、Qwen-VL和Qwen-Audio。新成员Qwen2是一系列基于Transformer架构的大型语言模型,包括基础模型和指令微调模型,参数范围从5亿到720亿不等,适用于不同规模的部署。所有模型在包含7万亿词元的高质量数据集上预训练,涵盖广泛领域和语言。Qwen2在多个基准测试中表现优异,指令微调版本Qwen2-72B-Instruct在MT-Bench、Arena-Hard和LiveCodeBench中得分领先,基础语言模型Qwen2-72B在MMLU、GPQA、HumanEval、GSM8K和BBH中表现出色。
- TOKENIZER与模型
2.1 TOKENIZER
Qwen2采用基于字节级字节对编码的tokenizer,具有高编码效率和多语言能力。所有模型使用包含151,643个常规词元和3个控制词元的通用词汇表,适用于分布式训练。
2.2 模型架构
Qwen2基于Transformer架构,包含密集模型和混合专家(MoE)模型。密集模型采用分组查询注意力(GQA)和双块注意力(DCA),优化KV缓存使用和长上下文性能。MoE模型通过细粒度专家和专家路由机制提高性能和适应性。