逆势而上的月之暗面:Kimi K2编程实测

上周五晚上,沉寂许久的国内大模型六小龙之一的月之暗面(Moonshot AI)发布并开源了Kimi K2模型。

一时间,Kimi又有了话题度。

尤记得,年初DeepSeek爆火,Kimi等纷纷暂停投流,舆论对其大有哂笑之意。半年过去,Kimi依靠自身的强劲实力,强行拉回了自己在大模型中的地位。

Kimi官方发布显示,Kimi K2是一款具备更强代码能力、更擅长通用Agent任务的MoE架构(DeepSeekV3架构)基础模型。

总参数量达到1T,激活参数32B。这意味着大模型参数单位开始由B迈向了T,往后的模型只会越来越大。感觉彻底断了开发人员本地化部署的念想。

官方透露K2的预训练阶段使用MuonClip优化器实现万亿参数模型的稳定高效训练,找到了新的Scaling空间。但K2的论文还未发布,这1T参数量的模型具体咋训练的,只能等后续论文发布了再看。

我这两天关注了X上的动态,老外们对K2评价都很高,被誉为开源模型又一大赢(这里也有赢学)。

既然K2是针对代码能力的模型,我初步测试了一些编程任务,仅供各位读者参考。

任务1:俄罗斯方块

提示词:

编写一个经典的俄罗斯方块游戏。

该有的都有,UI设计也非常美观,我还小玩了一会。

任务2:扫雷游戏

提示词:

编写一个经典的扫雷游戏。

K2完成度非常高,UI设计也是扫雷的经典配色。

作为对比,我感觉Claude 4 sonnet的页面就比K2差了一点。

任务3:天气卡片

提示词:

创建一个包含CSS和JavaScript的单一HTML文件,用于生成一个动画天气卡片。该卡片应通过不同的动画效果直观展示以下天气状况:风:(例如移动的云朵、摇曳的树木或风线)雨:(例如落下的雨滴、积水形成)太阳:(例如照射的光线、明亮的背景)雪:(例如落下的雪花、积雪)将所有天气卡片并排显示。卡片应采用深色背景。请将所有HTML、CSS和JavaScript代码包含在此单一文件中。JavaScript代码应包含切换不同天气状况的功能(例如函数或按钮集),以演示每种天气状况的动画效果。

这个是经典的天气卡片任务,当初Claude也是靠这个任务惊艳了不少人。

K2在这个任务上完成度和UI设计感觉比Claude都要差一点。

任务4:太阳系模拟运行

提示词:

编写一个模拟太阳系天体运行的可交互式网页。

自带了一点公转的残影轨迹,但整体上没啥大问题,基本可以用于小学生科普动画演示用了。

作为对比,Claude 4 Sonnet实现效果基本完美。

任务5:3D赛博空间

提示词:

创建一个3D赛博空间。

这个任务纯评各家大模型对于赛博朋克的理解了,K2和Claude做出来东西都比较抽象,但从视觉上看,Claude应该更赛博一点。

Claude 4 Sonnet:

任务6:烟花秀

提示词:

用p5.js实现一个绚丽的夜空烟花秀页面,页面可交互。

这个任务K2没能完成,修改了一轮之后也没有达到效果,没有时间细调,遂放弃尝试。

Claude 4 Sonnet效果虽然也不是很好,但基本实现了功能。

任务7:数据分析与可视化

提示词:

该数据集是2014-2015赛季科比部分比赛的投篮日志数据集。请根据该数据集,自行寻找分析角度,对其进行可视化数据分析。

这个任务数据集来自于kaggle,主要是分析一下科比在2014-15赛季部分比赛场次的投篮日志数据。

K2数据分析本身没啥问题,前端效果呈现上与Claude 4 Sonnet也差不多,都采用了湖人队的紫金配色。

Claude 4 Sonnet:

任务8:积分计算

这是编程任务之外的加试题,测一下K2在数学方面的能力。计算一道定积分,2024 MIT积分决赛压轴题:

看着就很复杂,我肯定不会算。

这一题K2和Claude 4 Sonnet都算错了,K2疯狂思考了七八分钟,但还是算错了。

Claude 4 Sonnet算得很快,但也算错了:

所以我又拿GPT-o3测了一下,GPT-o3算的又快又正确:

论数学推理,感觉还是GPT-o3更强大。

任务1和2是游戏编程,任务3-6是前端编程,任务7是数据分析与可视化,任务8是纯数学计算。虽然测试任务不多,但整体测下来,我感觉Kimi K2的代码能力应该介于Claude 3.7和Claude 4之间,数学推理能力则要明显弱于GPT-o3。

Kimi K2有这个实测效果,感觉很不容易。特别是在年后DeepSeek崛起,六小龙模式岌岌可危的环境下,Kimi能逆势而上,仍然在基座模型上持续发力,颇有一种强势回归的即视感。

也可以看看K2研发人员对K2的评价和一些心路历程(好笑的是,这篇博客被被翻译成英文在国外各大平台转发,真是此一时彼一时也):

传送门:

https://bigeagle.me/2025/07/kimi-k2/

巧合的是,K2发布后,OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。我猜大概率跟K2的开源有关。

后记:机器学习实验室公众号近期在进行内容重组,会更加聚焦AIGC和AGI相关学术、技术与应用。会加大原创内容产出,感谢各位读者的支持。

八年AI算法老兵,目前正在全面拥抱大模型和AIGC。感兴趣的小伙伴可以加我微信(louwill_)交个朋友。

>/ 作者:louwill

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值