逆势而上的月之暗面：Kimi K2编程实测

原创于 2025-07-14 16:36:21 发布 · 748 阅读

·

17

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

上周五晚上，沉寂许久的国内大模型六小龙之一的月之暗面（Moonshot AI）发布并开源了Kimi K2模型。

一时间，Kimi又有了话题度。

尤记得，年初DeepSeek爆火，Kimi等纷纷暂停投流，舆论对其大有哂笑之意。半年过去，Kimi依靠自身的强劲实力，强行拉回了自己在大模型中的地位。

Kimi官方发布显示，Kimi K2是一款具备更强代码能力、更擅长通用Agent任务的MoE架构（DeepSeekV3架构）基础模型。

总参数量达到1T，激活参数32B。这意味着大模型参数单位开始由B迈向了T，往后的模型只会越来越大。感觉彻底断了开发人员本地化部署的念想。

官方透露K2的预训练阶段使用MuonClip优化器实现万亿参数模型的稳定高效训练，找到了新的Scaling空间。但K2的论文还未发布，这1T参数量的模型具体咋训练的，只能等后续论文发布了再看。

我这两天关注了X上的动态，老外们对K2评价都很高，被誉为开源模型又一大赢（这里也有赢学）。

既然K2是针对代码能力的模型，我初步测试了一些编程任务，仅供各位读者参考。

任务1：俄罗斯方块

提示词：

编写一个经典的俄罗斯方块游戏。

该有的都有，UI设计也非常美观，我还小玩了一会。

任务2：扫雷游戏

提示词：

编写一个经典的扫雷游戏。

K2完成度非常高，UI设计也是扫雷的经典配色。

作为对比，我感觉Claude 4 sonnet的页面就比K2差了一点。

任务3：天气卡片

提示词：

创建一个包含CSS和JavaScript的单一HTML文件，用于生成一个动画天气卡片。该卡片应通过不同的动画效果直观展示以下天气状况：风：（例如移动的云朵、摇曳的树木或风线）雨：（例如落下的雨滴、积水形成）太阳：（例如照射的光线、明亮的背景）雪：（例如落下的雪花、积雪）将所有天气卡片并排显示。卡片应采用深色背景。请将所有HTML、CSS和JavaScript代码包含在此单一文件中。JavaScript代码应包含切换不同天气状况的功能（例如函数或按钮集），以演示每种天气状况的动画效果。

这个是经典的天气卡片任务，当初Claude也是靠这个任务惊艳了不少人。

K2在这个任务上完成度和UI设计感觉比Claude都要差一点。

任务4：太阳系模拟运行

提示词：

编写一个模拟太阳系天体运行的可交互式网页。

自带了一点公转的残影轨迹，但整体上没啥大问题，基本可以用于小学生科普动画演示用了。

作为对比，Claude 4 Sonnet实现效果基本完美。

任务5：3D赛博空间

提示词：

创建一个3D赛博空间。

这个任务纯评各家大模型对于赛博朋克的理解了，K2和Claude做出来东西都比较抽象，但从视觉上看，Claude应该更赛博一点。

Claude 4 Sonnet：

任务6：烟花秀

提示词：

用p5.js实现一个绚丽的夜空烟花秀页面，页面可交互。

这个任务K2没能完成，修改了一轮之后也没有达到效果，没有时间细调，遂放弃尝试。

Claude 4 Sonnet效果虽然也不是很好，但基本实现了功能。

任务7：数据分析与可视化

提示词：

该数据集是2014-2015赛季科比部分比赛的投篮日志数据集。请根据该数据集，自行寻找分析角度，对其进行可视化数据分析。

这个任务数据集来自于kaggle，主要是分析一下科比在2014-15赛季部分比赛场次的投篮日志数据。

K2数据分析本身没啥问题，前端效果呈现上与Claude 4 Sonnet也差不多，都采用了湖人队的紫金配色。

Claude 4 Sonnet：

任务8：积分计算

这是编程任务之外的加试题，测一下K2在数学方面的能力。计算一道定积分，2024 MIT积分决赛压轴题：

看着就很复杂，我肯定不会算。

这一题K2和Claude 4 Sonnet都算错了，K2疯狂思考了七八分钟，但还是算错了。

Claude 4 Sonnet算得很快，但也算错了：

所以我又拿GPT-o3测了一下，GPT-o3算的又快又正确：

论数学推理，感觉还是GPT-o3更强大。

任务1和2是游戏编程，任务3-6是前端编程，任务7是数据分析与可视化，任务8是纯数学计算。虽然测试任务不多，但整体测下来，我感觉Kimi K2的代码能力应该介于Claude 3.7和Claude 4之间，数学推理能力则要明显弱于GPT-o3。

Kimi K2有这个实测效果，感觉很不容易。特别是在年后DeepSeek崛起，六小龙模式岌岌可危的环境下，Kimi能逆势而上，仍然在基座模型上持续发力，颇有一种强势回归的即视感。

也可以看看K2研发人员对K2的评价和一些心路历程（好笑的是，这篇博客被被翻译成英文在国外各大平台转发，真是此一时彼一时也）：

传送门：

https://bigeagle.me/2025/07/kimi-k2/

巧合的是，K2发布后，OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。我猜大概率跟K2的开源有关。

后记：机器学习实验室公众号近期在进行内容重组，会更加聚焦AIGC和AGI相关学术、技术与应用。会加大原创内容产出，感谢各位读者的支持。

八年AI算法老兵，目前正在全面拥抱大模型和AIGC。感兴趣的小伙伴可以加我微信（louwill_）交个朋友。

>/ 作者：louwill

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。