Qwen2技术报告解读

何宜秋

已于 2024-10-21 13:55:21 修改

阅读量1.6k

点赞数 26

CC 4.0 BY-SA版权

文章标签： ai 人工智能语言模型分布式深度学习自然语言处理 transformer

于 2024-10-20 19:23:44 首次发布

本文链接：https://blog.csdn.net/heyiqiunet/article/details/143097009

论文：https://arxiv.org/pdf/2407.10671

摘要

本报告介绍了最新的大型语言模型和多模态模型Qwen2系列。该系列包括参数范围从0.5亿到720亿的基础型和指令微调型语言模型，涵盖密集模型和混合专家模型。Qwen2在多个基准测试中表现优异，超越了之前的开源模型，并在语言理解、生成、多语言能力等方面展现出竞争力。旗舰模型Qwen2-72B在多项基准测试中得分领先，指令微调版本Qwen2-72B-Instruct在多语言翻译和实时代码基准测试中表现出色。Qwen2支持约30种语言，显示出强大的多语言能力。模型权重已在Hugging Face、ModelScope和GitHub上公开，提供量化、微调和部署资源，以促进社区创新和应用研究。

1 介绍

随着ChatGPT的兴起，全球对大型语言模型的关注度激增，Llama系列模型进一步推动了开源社区的热情。近期，Claude-3 Opus和GPT-4o在Chatbot Arena上表现出色，Llama-3被认为达到了GPT-4的水平。Qwen、Mistral、Gemma等模型以开源方式发布，追求类似OpenAI GPT系列的进步。Qwen系列近期推出了Qwen1.5、Qwen-VL和Qwen-Audio。新成员Qwen2是一系列基于Transformer架构的大型语言模型，包括基础模型和指令微调模型，参数范围从5亿到720亿不等，适用于不同规模的部署。所有模型在包含7万亿词元的高质量数据集上预训练，涵盖广泛领域和语言。Qwen2在多个基准测试中表现优异，指令微调版本Qwen2-72B-Instruct在MT-Bench、Arena-Hard和LiveCodeBench中得分领先，基础语言模型Qwen2-72B在MMLU、GPQA、HumanEval、GSM8K和BBH中表现出色。