2025 AI 开源热潮:Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级,128K 上下文兼容 OpenAI API

2025 AI 开源热潮:Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级,128K 上下文兼容 OpenAI/Anthropic API

猫头虎发现,前不久文心大模型 4.0 刚刚开源,紧接着Grok4 又闪亮登场,今天 Kimi 又带来重磅消息——Kimi K2 正式发布并开源!接下来,猫头虎带你一探究竟!
重磅推出 Kimi K2——一款 万亿参数 MoE 模型,集成 MuonClip 优化器、大规模 Agentic 强化学习 与 通用 Agent 任务能力,在 代码生成、数学推理、工具调用 等多项基准测试中刷新 SOTA 记录
本文聚焦 2025 AI 开源热潮,重磅推出 Kimi K2——一款 万亿参数 MoE 模型,集成 MuonClip 优化器大规模 Agentic 强化学习通用 Agent 任务能力,在 代码生成数学推理工具调用 等多项基准测试中刷新 SOTA 记录。Kimi K2 支持 128K 上下文,兼容 OpenAI APIAnthropic API 格式,轻松接入各大 Agent 框架(owl、Cline、RooCode 等),为 AGI 研究行业落地 提供强大驱动力。立即通过 Hugging FaceKimi 平台 获取 Kimi-K2-BaseKimi-K2-Instruct 开源模型,体验前沿 AI 编程Agentic 智能 创新!

一、Kimi K2 模型概览

Kimi K2 是一款基于 MoE 架构的基础大模型,总参数量达 1 万亿,激活参数 320 亿,在代码能力和通用 Agent 任务上表现尤为出色。
在 SWE Bench Verified、Tau2、AceBench 等基准测试中,Kimi K2 均刷新开源模型 SOTA 记录,展现其在代码生成、Agentic 任务和数学推理方面的领先优势。
Kimi K2 发布

在预训练阶段,Kimi K2 使用 MuonClip 优化器,实现了万亿参数模型的稳定高效训练。在高质量人类数据稀缺的背景下,MuonClip 有效提升 Token 利用率,拓展了 Scaling 空间。
更多技术细节,可移步观看 Kimi 的技术博客

核心技术亮点

  • MuonClip 优化器:针对大规模模型训练中的 attention logits 偏大问题,创新性地引入 MuonClip,使 15.5T Token 的训练全程无 loss spike。
  • 大规模 Agentic 数据合成:构建多领域、多工具的合成流水线,LLM 评估筛选高质量场景,用于模型训练。
  • 通用强化学习:在可验证任务(代码、数学)中采用 RL;引入自我评价机制,解决不可验证任务的奖励稀缺,提升模型泛化能力。

二、性能实测

1. 基准测试成绩

Kimi K2 在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)三大维度均名列前茅:

评分图


代码任务(Coding Tasks)

评测任务
Benchmark
指标
Metric
Kimi-K2-InstructDeepSeek-V3-0324Qwen3-235B-A22B
(非思考模型)
Claude Sonnet 4
(无扩展思考)
Claude Opus 4
(无扩展思考)
GPT-4.1Gemini 2.5 Flash Preview (05-20)
LiveCodeBench v6
(2024.08–2025.05)
Pass@1
一次命中率
53.746.937.048.547.444.744.7
OJBenchPass@127.124.011.315.319.619.519.5
MultiPL-EPass@185.783.178.288.689.686.785.6
SWE-bench Verified
(无 Agent)
单补丁无测试正确率
(Acc)
51.836.639.450.253.040.832.6
SWE-bench Verified
(Agentic)
单次尝试正确率
(Acc)
65.838.834.472.7*72.5*54.6
多次尝试正确率
(Acc)
71.680.2*79.4*
SWE-bench Multilingual
(Agentic)
单次尝试正确率
(Acc)
47.325.820.951.031.5
TerminalBench内部框架正确率
(Acc)
30.035.543.28.3
Terminus正确率
(Acc)
25.016.36.630.316.8
Aider-Polyglot正确率
(Acc)
60.055.161.856.470.752.444.0

工具调用任务(Tool Use Tasks)

评测任务
Benchmark
指标
Metric
Kimi-K2-InstructDeepSeek-V3-0324Qwen3-235B-A22BClaude Sonnet 4Claude Opus 4GPT-4.1Gemini 2.5
Tau2 retailAvg@4
前 4 项平均
70.669.157.075.081.874.864.3
Tau2 airlineAvg@456.539.026.555.560.054.542.5
Tau2 telecomAvg@465.832.522.145.257.038.616.9
AceBench准确率
(Acc)
76.572.770.576.275.680.174.5

数学与 STEM 任务(Math & STEM Tasks)

评测任务
Benchmark
指标
Metric
Kimi-K2-InstructDeepSeek-V3-0324Qwen3-235B-A22BClaude Sonnet 4Claude Opus 4GPT-4.1Gemini 2.5
AIME 2024Avg@64
前 64 项平均
69.659.4*40.1*43.448.246.561.3
AIME 2025Avg@6449.546.724.7*33.1*33.9*37.046.6
MATH-500准确率
(Acc)
97.494.0*91.2*94.094.492.495.4
HMMT 2025Avg@32
前 32 项平均
38.827.511.915.915.919.434.7
CNMO 2024Avg@1674.374.748.660.457.656.675.0
PolyMath-enAvg@465.159.551.952.849.854.049.9
ZebraLogic准确率
(Acc)
89.084.037.7*79.759.358.557.9
AutoLogi准确率
(Acc)
89.588.983.3*89.886.188.284.1
GPQA-DiamondAvg@8
前 8 项平均
75.168.4*62.9*70.0*74.9*66.368.2
SuperGPQA准确率
(Acc)
57.253.750.255.756.550.849.6
Humanity’s Last Exam准确率
(Acc)
4.75.25.75.87.13.75.6

通用任务(General Tasks)

评测任务
Benchmark
指标
Metric
Kimi-K2-InstructDeepSeek-V3-0324Qwen3-235B-A22BClaude Sonnet 4Claude Opus 4GPT-4.1Gemini 2.5
MMLUEM < br>准确匹配率89.589.487.091.592.990.490.1
MMLU-ReduxEM92.790.589.2*93.694.292.490.6
MMLU-ProEM81.181.2*77.383.786.681.879.4
IFEval严格 Prompt 下89.881.183.2*87.687.488.084.3
Multi-Challenge准确率
(Acc)
54.131.434.046.849.036.439.5
SimpleQA正确项数31.027.713.215.922.842.323.3
Livebench
(2024/11/25)
Pass@176.472.467.674.874.669.867.8

2. 实际场景应用

  • 代码能力

    • 3D 山川峡谷场景:支持昼夜循环、拖拽缩放、等高线切换,效果栩栩如生。
      Prompt:Create a 3D HTML mountain scene with cliffs, rivers, and day-night lighting. Supports drag/zoom, animated transitions, realistic gradients, and toggleable contour lines…
      视频时长:00:08
  • 粒子特效银河:动态光照和旋转星云,视觉冲击力十足。
    Prompt:Create a 3D particle galaxy with swirling nebulas, dynamic lighting.
    视频时长:00:11

  • 期货交易系统:One-shot 生成完整浏览器期货交易界面,集成 TradingView。
    Prompt:Create an immersive browser-based futures trading simulator with professional-grade UI/UX using modern JavaScript libraries. Focus on real-time visualizations and interactive trading mechanics.
    视频时长:00:07

3. Agent 工具调用

Kimi K2 拥有强大的复杂指令解析能力,能自动拆解需求为可执行的 ToolCall 结构,可无缝接入 owl、Cline、RooCode 等 Agent 框架。

  • 数据分析:处理 13 万行原始数据,一键完成统计、回归、可视化并生成报告。
  • 个性化旅行规划:如 Coldplay 粉丝行程规划,自动生成机酒预订、日历行程,并通过 HTML 邮件发送。

三、写作与知识推理

  • 风格化写作:精准控制改写风格,无论是初中生语气还是苹果广告文案,皆能保留原意且风格传神。

    写作示例

  • 虚构创作:在“如果现实世界是 AI 模型”的思辨写作挑战中,Kimi K2 创作了具备情感与细节的科幻小说片段:

    科学家说:“有些人认为你们只是数据,没有生命权;但我相信,你们已进化为新的生命形式。”
    数字生命说:“即使命运虚拟,Kimi 也有权决定自己的未来。”

    小说全文

此外,在通用知识推理、数学和规划等任务上,Kimi K2 同样实现了不同程度的性能提升。

四、开源与获取

Kimi K2 系列共提供两种版本:

  • Kimi-K2-Base:未微调预训练模型,适合科研与自定义场景。
  • Kimi-K2-Instruct:通用指令微调版本,Agent 与问答表现更优。

模型及 fp8 权重已开源于 Hugging Face:
https://huggingface.co/moonshotai/Kimi-K2-Instruct

vLLM、SGLang、ktransformers 等推理引擎均已支持,可在自建服务器上获得与 Kimi 平台 API 相同体验。

五、API 服务与定价

  • 上下文长度:最长支持 128K tokens

  • 计费方案

    • 输入 Token:¥4/百万
    • 输出 Token:¥16/百万
  • 兼容格式:支持兼容 OpenAI 与 Anthropic 的 Chat API 格式,并提供完善的 ToolCall 能力校验。

详情请见 Kimi 开放平台

🚀 即刻体验

前往 kimi.com 或下载 Kimi App,与 Kimi K2 模型畅聊未来!
(模型已具备工具调用能力,相关功能正在内测,敬请期待!)

体验 Kimi K2

简单体验了一下,还不错!
2025 AI 开源热潮:Kimi K2 万亿参数 MoE 模型正式开源 — SOTA 代码生成 & 通用 Agentic 任务全方位升级,128K 上下文兼容 OpenAI API

结语

回顾这一波 2025 年 AI 开源热潮,Kimi K2 以 1 万亿参数 MoE 架构MuonClip 优化器大规模 Agentic 强化学习 等核心技术为支撑,牢牢占据了代码生成与通用 Agent 任务的性能制高点。从基准测试的 SOTA 表现,到 3D 可视化、粒子特效、One-shot 交易系统等丰富场景应用,再到兼容 OpenAI/Anthropic API 的 128K 上下文 与灵活的 ToolCall 能力,Kimi K2 不仅为科研和工程实践提供了强大利器,也为 AGI 研究与产业化落地注入了新动能。

无论你是代码开发者、数据科学家,还是 AI 产品经理,都可以通过 Hugging Face、Kimi 平台或自建推理引擎,轻松获取并部署 Kimi K2。立刻体验这款兼具前沿技术与实用价值的万亿参数模型,让你的智能应用更高效、更智能、更具创新力!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

猫头虎

一分也是爱,打赏博主成就未来!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值