编程AI深度实战：大模型哪个好？ Mistral vs Qwen vs Deepseek vs Llama

Codestral、Qwen、DeepSeek代码模型性能对比

原创

已于 2025-02-05 21:19:55 修改 · 置顶 · 2.7k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI大模型 #开源模型 #llama #codestral #qwen #deepseek

于 2025-02-04 10:44:26 首次发布

随着开源 LLM 的发展，越来越多的模型变得专业化，“代码”LLM 变得非常流行。这些 LLM 旨在比其 “常识” 对应物更小，但旨在超越更大的通用模型的编码性能。

这些模型以极低的成本提供大型模型的功能，进一步使本地 LLM 空间民主化。特别是，在较小的编码 LLM 领域中，有三个模型在竞争中脱颖而出：Codestral 22B、DeepSeek Coder V2 Lite 14B 和 Qwen 2.5 Coder 7B。

Codestral 22B 于 5 月 29 日发布，这是 Mistral 发布的第一款特定代码模型。据说它精通 80 多种编程语言，具有 Fill-in-the-Middle 能力，可以与开发人员一起充当助手。

Qwen 2.5 Coder 7B 已于 2024 年 9 月 19 日由阿里云发布。它是 Qwen 系列的一部分，模型参数范围从 1.5B 到 32B 不等，针对更接近闭源模型的性能。

DeepSeek V2 Coder 由 DeepSeek AI 于 2024 年 6 月发布。该模型是 DeepSeek V1 的改进版本，使用 1.17 万亿个代码相关标记进行训练，它专注于增强的代码生成和数学功能，还支持 Fill-in-the-Middle。除了具有 2360 亿个参数的 “基础” 模型外，他们还发布了具有 160 亿个参数的较小 “精简” 版本。

先过一遍榜单

这三种型号在各自的参数类别中都拥有最先进的性能，而且数字相当可观。我们来看看模型在最流行的编程基准测试 HumanEval 上的性能。

Codestral 得分为 81.1%，DeepSeek Coder v2 Lite 得分为 81.1%，而 Qwen 2.5 Coder 7B 在基准测试中得分为 88.4%，超过了比自身大得多的两个模型。作为参考，OpenAI 的闭源 GPT-4 得分仅为 87.1%，而改进的 GPT-4o 得分仅比 Qwen 2.5 Coder 高出 2 个百分点，为 90.2%。

另一个值得注意的基准是 Spider，它包含 10,000 多个问题，与 5,000 多个复杂的跨域 SQL 查询相匹配。此基准测试对于将 LLM 集成到数据库中至关重要。这一次，Qwen 2.5 Coder 以更大的优势领先，为 82.0%，而 Codestral 的得分仅为 76.6%。

下表比较了所有三种模型的基准，侧面为 GPT-4o 作为参考：