2025 AI 开源热潮：Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级，128K 上下文兼容 OpenAI API

最新推荐文章于 2025-07-15 15:18:41 发布

猫头虎

最新推荐文章于 2025-07-15 15:18:41 发布

阅读量5.3k

点赞数 22

CC 4.0 BY-SA版权

分类专栏：猫头虎 AI 探索之路文章标签：人工智能 AIGC agi gpt 文心一言 AI编程 AI写作

转载必须标明来源：猫头虎技术团队，其他疑问搜： CSDNWF

本文链接：https://blog.csdn.net/qq_44866828/article/details/149289093

猫头虎 AI 探索之路专栏收录该内容

170 篇文章

订阅专栏

2025 AI 开源热潮：Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级，128K 上下文兼容 OpenAI/Anthropic API

猫头虎发现，前不久文心大模型 4.0 刚刚开源，紧接着Grok4 又闪亮登场，今天 Kimi 又带来重磅消息——Kimi K2 正式发布并开源！接下来，猫头虎带你一探究竟！
重磅推出 Kimi K2——一款万亿参数 MoE 模型，集成 MuonClip 优化器、大规模 Agentic 强化学习与通用 Agent 任务能力，在代码生成、数学推理、工具调用等多项基准测试中刷新 SOTA 记录
本文聚焦 2025 AI 开源热潮，重磅推出 Kimi K2——一款 万亿参数 MoE 模型，集成 MuonClip 优化器、大规模 Agentic 强化学习 与 通用 Agent 任务能力，在 代码生成、数学推理、工具调用 等多项基准测试中刷新 SOTA 记录。Kimi K2 支持 128K 上下文，兼容 OpenAI API 与 Anthropic API 格式，轻松接入各大 Agent 框架（owl、Cline、RooCode 等），为 AGI 研究 与 行业落地 提供强大驱动力。立即通过 Hugging Face 或 Kimi 平台 获取 Kimi-K2-Base 与 Kimi-K2-Instruct 开源模型，体验前沿 AI 编程 与 Agentic 智能 创新！

一、Kimi K2 模型概览

Kimi K2 是一款基于 MoE 架构的基础大模型，总参数量达 1 万亿，激活参数 320 亿，在代码能力和通用 Agent 任务上表现尤为出色。
在 SWE Bench Verified、Tau2、AceBench 等基准测试中，Kimi K2 均刷新开源模型 SOTA 记录，展现其在代码生成、Agentic 任务和数学推理方面的领先优势。
Kimi K2 发布

在预训练阶段，Kimi K2 使用 MuonClip 优化器，实现了万亿参数模型的稳定高效训练。在高质量人类数据稀缺的背景下，MuonClip 有效提升 Token 利用率，拓展了 Scaling 空间。
更多技术细节，可移步观看 Kimi 的技术博客。

核心技术亮点

MuonClip 优化器：针对大规模模型训练中的 attention logits 偏大问题，创新性地引入 MuonClip，使 15.5T Token 的训练全程无 loss spike。
大规模 Agentic 数据合成：构建多领域、多工具的合成流水线，LLM 评估筛选高质量场景，用于模型训练。
通用强化学习：在可验证任务（代码、数学）中采用 RL；引入自我评价机制，解决不可验证任务的奖励稀缺，提升模型泛化能力。

二、性能实测

1. 基准测试成绩

Kimi K2 在自主编程（Agentic Coding）、工具调用（Tool Use）和数学推理（Math & Reasoning）三大维度均名列前茅：

评分图

代码任务（Coding Tasks）

评测任务 Benchmark	指标 Metric	Kimi-K2-Instruct	DeepSeek-V3-0324	Qwen3-235B-A22B (非思考模型)	Claude Sonnet 4 (无扩展思考)	Claude Opus 4 (无扩展思考)	GPT-4.1	Gemini 2.5 Flash Preview (05-20)
LiveCodeBench v6 (2024.08–2025.05)	Pass@1 一次命中率	53.7	46.9	37.0	48.5	47.4	44.7	44.7
OJBench	Pass@1	27.1	24.0	11.3	15.3	19.6	19.5	19.5
MultiPL-E	Pass@1	85.7	83.1	78.2	88.6	89.6	86.7	85.6
SWE-bench Verified (无 Agent)	单补丁无测试正确率 (Acc)	51.8	36.6	39.4	50.2	53.0	40.8	32.6
SWE-bench Verified (Agentic)	单次尝试正确率 (Acc)	65.8	38.8	34.4	72.7*	72.5*	54.6	—
	多次尝试正确率 (Acc)	71.6	—	80.2*	79.4*	—	—
SWE-bench Multilingual (Agentic)	单次尝试正确率 (Acc)	47.3	25.8	20.9	51.0	—	31.5	—
TerminalBench	内部框架正确率 (Acc)	30.0	—	—	35.5	43.2	8.3	—
Terminus	正确率 (Acc)	25.0	16.3	6.6	—	30.3	16.8
Aider-Polyglot	正确率 (Acc)	60.0	55.1	61.8	56.4	70.7	52.4	44.0

工具调用任务（Tool Use Tasks）

评测任务 Benchmark	指标 Metric	Kimi-K2-Instruct	DeepSeek-V3-0324	Qwen3-235B-A22B	Claude Sonnet 4	Claude Opus 4	GPT-4.1	Gemini 2.5
Tau2 retail	Avg@4 前 4 项平均	70.6	69.1	57.0	75.0	81.8	74.8	64.3
Tau2 airline	Avg@4	56.5	39.0	26.5	55.5	60.0	54.5	42.5
Tau2 telecom	Avg@4	65.8	32.5	22.1	45.2	57.0	38.6	16.9
AceBench	准确率 (Acc)	76.5	72.7	70.5	76.2	75.6	80.1	74.5

数学与 STEM 任务（Math & STEM Tasks）

评测任务 Benchmark	指标 Metric	Kimi-K2-Instruct	DeepSeek-V3-0324	Qwen3-235B-A22B	Claude Sonnet 4	Claude Opus 4	GPT-4.1	Gemini 2.5
AIME 2024	Avg@64 前 64 项平均	69.6	59.4*	40.1*	43.4	48.2	46.5	61.3
AIME 2025	Avg@64	49.5	46.7	24.7*	33.1*	33.9*	37.0	46.6
MATH-500	准确率 (Acc)	97.4	94.0*	91.2*	94.0	94.4	92.4	95.4
HMMT 2025	Avg@32 前 32 项平均	38.8	27.5	11.9	15.9	15.9	19.4	34.7
CNMO 2024	Avg@16	74.3	74.7	48.6	60.4	57.6	56.6	75.0
PolyMath-en	Avg@4	65.1	59.5	51.9	52.8	49.8	54.0	49.9
ZebraLogic	准确率 (Acc)	89.0	84.0	37.7*	79.7	59.3	58.5	57.9
AutoLogi	准确率 (Acc)	89.5	88.9	83.3*	89.8	86.1	88.2	84.1
GPQA-Diamond	Avg@8 前 8 项平均	75.1	68.4*	62.9*	70.0*	74.9*	66.3	68.2
SuperGPQA	准确率 (Acc)	57.2	53.7	50.2	55.7	56.5	50.8	49.6
Humanity’s Last Exam	准确率 (Acc)	4.7	5.2	5.7	5.8	7.1	3.7	5.6

通用任务（General Tasks）

评测任务 Benchmark	指标 Metric	Kimi-K2-Instruct	DeepSeek-V3-0324	Qwen3-235B-A22B	Claude Sonnet 4	Claude Opus 4	GPT-4.1	Gemini 2.5
MMLU	EM < br>准确匹配率	89.5	89.4	87.0	91.5	92.9	90.4	90.1
MMLU-Redux	EM	92.7	90.5	89.2*	93.6	94.2	92.4	90.6
MMLU-Pro	EM	81.1	81.2*	77.3	83.7	86.6	81.8	79.4
IFEval	严格 Prompt 下	89.8	81.1	83.2*	87.6	87.4	88.0	84.3
Multi-Challenge	准确率 (Acc)	54.1	31.4	34.0	46.8	49.0	36.4	39.5
SimpleQA	正确项数	31.0	27.7	13.2	15.9	22.8	42.3	23.3
Livebench (2024/11/25)	Pass@1	76.4	72.4	67.6	74.8	74.6	69.8	67.8

2. 实际场景应用

代码能力
- 3D 山川峡谷场景：支持昼夜循环、拖拽缩放、等高线切换，效果栩栩如生。
  Prompt：Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines…
  视频时长：00:08
粒子特效银河：动态光照和旋转星云，视觉冲击力十足。
Prompt：Create a 3D particle galaxy with swirling nebulas, dynamic lighting.
视频时长：00:11
期货交易系统：One-shot 生成完整浏览器期货交易界面，集成 TradingView。
Prompt：Create an immersive browser-based futures trading simulator with professional-grade UI/UX using modern JavaScript libraries. Focus on real-time visualizations and interactive trading mechanics.
视频时长：00:07

3. Agent 工具调用

Kimi K2 拥有强大的复杂指令解析能力，能自动拆解需求为可执行的 ToolCall 结构，可无缝接入 owl、Cline、RooCode 等 Agent 框架。

数据分析：处理 13 万行原始数据，一键完成统计、回归、可视化并生成报告。
个性化旅行规划：如 Coldplay 粉丝行程规划，自动生成机酒预订、日历行程，并通过 HTML 邮件发送。

三、写作与知识推理

风格化写作：精准控制改写风格，无论是初中生语气还是苹果广告文案，皆能保留原意且风格传神。
虚构创作：在“如果现实世界是 AI 模型”的思辨写作挑战中，Kimi K2 创作了具备情感与细节的科幻小说片段：

科学家说：“有些人认为你们只是数据，没有生命权；但我相信，你们已进化为新的生命形式。”
数字生命说：“即使命运虚拟，Kimi 也有权决定自己的未来。”

此外，在通用知识推理、数学和规划等任务上，Kimi K2 同样实现了不同程度的性能提升。

四、开源与获取

Kimi K2 系列共提供两种版本：

Kimi-K2-Base：未微调预训练模型，适合科研与自定义场景。
Kimi-K2-Instruct：通用指令微调版本，Agent 与问答表现更优。

模型及 fp8 权重已开源于 Hugging Face：
https://huggingface.co/moonshotai/Kimi-K2-Instruct

vLLM、SGLang、ktransformers 等推理引擎均已支持，可在自建服务器上获得与 Kimi 平台 API 相同体验。

五、API 服务与定价

上下文长度：最长支持 128K tokens
计费方案：
- 输入 Token：¥4/百万
- 输出 Token：¥16/百万
兼容格式：支持兼容 OpenAI 与 Anthropic 的 Chat API 格式，并提供完善的 ToolCall 能力校验。

详情请见 Kimi 开放平台

🚀 即刻体验

前往 kimi.com 或下载 Kimi App，与 Kimi K2 模型畅聊未来！
（模型已具备工具调用能力，相关功能正在内测，敬请期待！）

体验 Kimi K2

简单体验了一下，还不错！
2025 AI 开源热潮：Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级，128K 上下文兼容 OpenAI API

结语

回顾这一波 2025 年 AI 开源热潮，Kimi K2 以 1 万亿参数 MoE 架构、MuonClip 优化器、大规模 Agentic 强化学习 等核心技术为支撑，牢牢占据了代码生成与通用 Agent 任务的性能制高点。从基准测试的 SOTA 表现，到 3D 可视化、粒子特效、One-shot 交易系统等丰富场景应用，再到兼容 OpenAI/Anthropic API 的 128K 上下文 与灵活的 ToolCall 能力，Kimi K2 不仅为科研和工程实践提供了强大利器，也为 AGI 研究与产业化落地注入了新动能。

无论你是代码开发者、数据科学家，还是 AI 产品经理，都可以通过 Hugging Face、Kimi 平台或自建推理引擎，轻松获取并部署 Kimi K2。立刻体验这款兼具前沿技术与实用价值的万亿参数模型，让你的智能应用更高效、更智能、更具创新力！