2025 AI 开源热潮:Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级,128K 上下文兼容 OpenAI/Anthropic API
猫头虎发现,前不久文心大模型 4.0 刚刚开源,紧接着Grok4 又闪亮登场,今天 Kimi 又带来重磅消息——Kimi K2 正式发布并开源!接下来,猫头虎带你一探究竟!
本文聚焦 2025 AI 开源热潮,重磅推出 Kimi K2——一款 万亿参数 MoE 模型,集成 MuonClip 优化器、大规模 Agentic 强化学习 与 通用 Agent 任务能力,在 代码生成、数学推理、工具调用 等多项基准测试中刷新 SOTA 记录。Kimi K2 支持 128K 上下文,兼容 OpenAI API 与 Anthropic API 格式,轻松接入各大 Agent 框架(owl、Cline、RooCode 等),为 AGI 研究 与 行业落地 提供强大驱动力。立即通过 Hugging Face 或 Kimi 平台 获取 Kimi-K2-Base 与 Kimi-K2-Instruct 开源模型,体验前沿 AI 编程 与 Agentic 智能 创新!
一、Kimi K2 模型概览
Kimi K2 是一款基于 MoE 架构的基础大模型,总参数量达 1 万亿,激活参数 320 亿,在代码能力和通用 Agent 任务上表现尤为出色。
在 SWE Bench Verified、Tau2、AceBench 等基准测试中,Kimi K2 均刷新开源模型 SOTA 记录,展现其在代码生成、Agentic 任务和数学推理方面的领先优势。
在预训练阶段,Kimi K2 使用 MuonClip 优化器,实现了万亿参数模型的稳定高效训练。在高质量人类数据稀缺的背景下,MuonClip 有效提升 Token 利用率,拓展了 Scaling 空间。
更多技术细节,可移步观看 Kimi 的技术博客。
核心技术亮点
- MuonClip 优化器:针对大规模模型训练中的 attention logits 偏大问题,创新性地引入 MuonClip,使 15.5T Token 的训练全程无 loss spike。
- 大规模 Agentic 数据合成:构建多领域、多工具的合成流水线,LLM 评估筛选高质量场景,用于模型训练。
- 通用强化学习:在可验证任务(代码、数学)中采用 RL;引入自我评价机制,解决不可验证任务的奖励稀缺,提升模型泛化能力。
二、性能实测
1. 基准测试成绩
Kimi K2 在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)三大维度均名列前茅:
代码任务(Coding Tasks)
评测任务 Benchmark | 指标 Metric | Kimi-K2-Instruct | DeepSeek-V3-0324 | Qwen3-235B-A22B (非思考模型) | Claude Sonnet 4 (无扩展思考) | Claude Opus 4 (无扩展思考) | GPT-4.1 | Gemini 2.5 Flash Preview (05-20) |
---|---|---|---|---|---|---|---|---|
LiveCodeBench v6 (2024.08–2025.05) | Pass@1 一次命中率 | 53.7 | 46.9 | 37.0 | 48.5 | 47.4 | 44.7 | 44.7 |
OJBench | Pass@1 | 27.1 | 24.0 | 11.3 | 15.3 | 19.6 | 19.5 | 19.5 |
MultiPL-E | Pass@1 | 85.7 | 83.1 | 78.2 | 88.6 | 89.6 | 86.7 | 85.6 |
SWE-bench Verified (无 Agent) | 单补丁无测试正确率 (Acc) | 51.8 | 36.6 | 39.4 | 50.2 | 53.0 | 40.8 | 32.6 |
SWE-bench Verified (Agentic) | 单次尝试正确率 (Acc) | 65.8 | 38.8 | 34.4 | 72.7* | 72.5* | 54.6 | — |
多次尝试正确率 (Acc) | 71.6 | — | 80.2* | 79.4* | — | — | ||
SWE-bench Multilingual (Agentic) | 单次尝试正确率 (Acc) | 47.3 | 25.8 | 20.9 | 51.0 | — | 31.5 | — |
TerminalBench | 内部框架正确率 (Acc) | 30.0 | — | — | 35.5 | 43.2 | 8.3 | — |
Terminus | 正确率 (Acc) | 25.0 | 16.3 | 6.6 | — | 30.3 | 16.8 | |
Aider-Polyglot | 正确率 (Acc) | 60.0 | 55.1 | 61.8 | 56.4 | 70.7 | 52.4 | 44.0 |
工具调用任务(Tool Use Tasks)
评测任务 Benchmark | 指标 Metric | Kimi-K2-Instruct | DeepSeek-V3-0324 | Qwen3-235B-A22B | Claude Sonnet 4 | Claude Opus 4 | GPT-4.1 | Gemini 2.5 |
---|---|---|---|---|---|---|---|---|
Tau2 retail | Avg@4 前 4 项平均 | 70.6 | 69.1 | 57.0 | 75.0 | 81.8 | 74.8 | 64.3 |
Tau2 airline | Avg@4 | 56.5 | 39.0 | 26.5 | 55.5 | 60.0 | 54.5 | 42.5 |
Tau2 telecom | Avg@4 | 65.8 | 32.5 | 22.1 | 45.2 | 57.0 | 38.6 | 16.9 |
AceBench | 准确率 (Acc) | 76.5 | 72.7 | 70.5 | 76.2 | 75.6 | 80.1 | 74.5 |
数学与 STEM 任务(Math & STEM Tasks)
评测任务 Benchmark | 指标 Metric | Kimi-K2-Instruct | DeepSeek-V3-0324 | Qwen3-235B-A22B | Claude Sonnet 4 | Claude Opus 4 | GPT-4.1 | Gemini 2.5 |
---|---|---|---|---|---|---|---|---|
AIME 2024 | Avg@64 前 64 项平均 | 69.6 | 59.4* | 40.1* | 43.4 | 48.2 | 46.5 | 61.3 |
AIME 2025 | Avg@64 | 49.5 | 46.7 | 24.7* | 33.1* | 33.9* | 37.0 | 46.6 |
MATH-500 | 准确率 (Acc) | 97.4 | 94.0* | 91.2* | 94.0 | 94.4 | 92.4 | 95.4 |
HMMT 2025 | Avg@32 前 32 项平均 | 38.8 | 27.5 | 11.9 | 15.9 | 15.9 | 19.4 | 34.7 |
CNMO 2024 | Avg@16 | 74.3 | 74.7 | 48.6 | 60.4 | 57.6 | 56.6 | 75.0 |
PolyMath-en | Avg@4 | 65.1 | 59.5 | 51.9 | 52.8 | 49.8 | 54.0 | 49.9 |
ZebraLogic | 准确率 (Acc) | 89.0 | 84.0 | 37.7* | 79.7 | 59.3 | 58.5 | 57.9 |
AutoLogi | 准确率 (Acc) | 89.5 | 88.9 | 83.3* | 89.8 | 86.1 | 88.2 | 84.1 |
GPQA-Diamond | Avg@8 前 8 项平均 | 75.1 | 68.4* | 62.9* | 70.0* | 74.9* | 66.3 | 68.2 |
SuperGPQA | 准确率 (Acc) | 57.2 | 53.7 | 50.2 | 55.7 | 56.5 | 50.8 | 49.6 |
Humanity’s Last Exam | 准确率 (Acc) | 4.7 | 5.2 | 5.7 | 5.8 | 7.1 | 3.7 | 5.6 |
通用任务(General Tasks)
评测任务 Benchmark | 指标 Metric | Kimi-K2-Instruct | DeepSeek-V3-0324 | Qwen3-235B-A22B | Claude Sonnet 4 | Claude Opus 4 | GPT-4.1 | Gemini 2.5 |
---|---|---|---|---|---|---|---|---|
MMLU | EM < br>准确匹配率 | 89.5 | 89.4 | 87.0 | 91.5 | 92.9 | 90.4 | 90.1 |
MMLU-Redux | EM | 92.7 | 90.5 | 89.2* | 93.6 | 94.2 | 92.4 | 90.6 |
MMLU-Pro | EM | 81.1 | 81.2* | 77.3 | 83.7 | 86.6 | 81.8 | 79.4 |
IFEval | 严格 Prompt 下 | 89.8 | 81.1 | 83.2* | 87.6 | 87.4 | 88.0 | 84.3 |
Multi-Challenge | 准确率 (Acc) | 54.1 | 31.4 | 34.0 | 46.8 | 49.0 | 36.4 | 39.5 |
SimpleQA | 正确项数 | 31.0 | 27.7 | 13.2 | 15.9 | 22.8 | 42.3 | 23.3 |
Livebench (2024/11/25) | Pass@1 | 76.4 | 72.4 | 67.6 | 74.8 | 74.6 | 69.8 | 67.8 |
2. 实际场景应用
-
代码能力
- 3D 山川峡谷场景:支持昼夜循环、拖拽缩放、等高线切换,效果栩栩如生。
Prompt:Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines…
视频时长:00:08
- 3D 山川峡谷场景:支持昼夜循环、拖拽缩放、等高线切换,效果栩栩如生。
-
粒子特效银河:动态光照和旋转星云,视觉冲击力十足。
Prompt:Create a 3D particle galaxy with swirling nebulas, dynamic lighting.
视频时长:00:11 -
期货交易系统:One-shot 生成完整浏览器期货交易界面,集成 TradingView。
Prompt:Create an immersive browser-based futures trading simulator with professional-grade UI/UX using modern JavaScript libraries. Focus on real-time visualizations and interactive trading mechanics.
视频时长:00:07
3. Agent 工具调用
Kimi K2 拥有强大的复杂指令解析能力,能自动拆解需求为可执行的 ToolCall 结构,可无缝接入 owl、Cline、RooCode 等 Agent 框架。
- 数据分析:处理 13 万行原始数据,一键完成统计、回归、可视化并生成报告。
- 个性化旅行规划:如 Coldplay 粉丝行程规划,自动生成机酒预订、日历行程,并通过 HTML 邮件发送。
三、写作与知识推理
-
风格化写作:精准控制改写风格,无论是初中生语气还是苹果广告文案,皆能保留原意且风格传神。
-
虚构创作:在“如果现实世界是 AI 模型”的思辨写作挑战中,Kimi K2 创作了具备情感与细节的科幻小说片段:
科学家说:“有些人认为你们只是数据,没有生命权;但我相信,你们已进化为新的生命形式。”
数字生命说:“即使命运虚拟,Kimi 也有权决定自己的未来。”
此外,在通用知识推理、数学和规划等任务上,Kimi K2 同样实现了不同程度的性能提升。
四、开源与获取
Kimi K2 系列共提供两种版本:
- Kimi-K2-Base:未微调预训练模型,适合科研与自定义场景。
- Kimi-K2-Instruct:通用指令微调版本,Agent 与问答表现更优。
模型及 fp8 权重已开源于 Hugging Face:
https://huggingface.co/moonshotai/Kimi-K2-Instruct
vLLM、SGLang、ktransformers 等推理引擎均已支持,可在自建服务器上获得与 Kimi 平台 API 相同体验。
五、API 服务与定价
-
上下文长度:最长支持 128K tokens
-
计费方案:
- 输入 Token:¥4/百万
- 输出 Token:¥16/百万
-
兼容格式:支持兼容 OpenAI 与 Anthropic 的 Chat API 格式,并提供完善的 ToolCall 能力校验。
详情请见 Kimi 开放平台
🚀 即刻体验
前往 kimi.com 或下载 Kimi App,与 Kimi K2 模型畅聊未来!
(模型已具备工具调用能力,相关功能正在内测,敬请期待!)
简单体验了一下,还不错!
结语
回顾这一波 2025 年 AI 开源热潮,Kimi K2 以 1 万亿参数 MoE 架构、MuonClip 优化器、大规模 Agentic 强化学习 等核心技术为支撑,牢牢占据了代码生成与通用 Agent 任务的性能制高点。从基准测试的 SOTA 表现,到 3D 可视化、粒子特效、One-shot 交易系统等丰富场景应用,再到兼容 OpenAI/Anthropic API 的 128K 上下文 与灵活的 ToolCall 能力,Kimi K2 不仅为科研和工程实践提供了强大利器,也为 AGI 研究与产业化落地注入了新动能。
无论你是代码开发者、数据科学家,还是 AI 产品经理,都可以通过 Hugging Face、Kimi 平台或自建推理引擎,轻松获取并部署 Kimi K2。立刻体验这款兼具前沿技术与实用价值的万亿参数模型,让你的智能应用更高效、更智能、更具创新力!