上周五晚上,沉寂许久的国内大模型六小龙之一的月之暗面(Moonshot AI)发布并开源了Kimi K2模型。
一时间,Kimi又有了话题度。
尤记得,年初DeepSeek爆火,Kimi等纷纷暂停投流,舆论对其大有哂笑之意。半年过去,Kimi依靠自身的强劲实力,强行拉回了自己在大模型中的地位。
Kimi官方发布显示,Kimi K2是一款具备更强代码能力、更擅长通用Agent任务的MoE架构(DeepSeekV3架构)基础模型。
总参数量达到1T,激活参数32B。这意味着大模型参数单位开始由B迈向了T,往后的模型只会越来越大。感觉彻底断了开发人员本地化部署的念想。
官方透露K2的预训练阶段使用MuonClip优化器实现万亿参数模型的稳定高效训练,找到了新的Scaling空间。但K2的论文还未发布,这1T参数量的模型具体咋训练的,只能等后续论文发布了再看。
我这两天关注了X上的动态,老外们对K2评价都很高,被誉为开源模型又一大赢(这里也有赢学)。
既然K2是针对代码能力的模型,我初步测试了一些编程任务,仅供各位读者参考。
任务1:俄罗斯方块
提示词:
编写一个经典的俄罗斯方块游戏。
该有的都有,UI设计也非常美观,我还小玩了一会。
任务2:扫雷游戏
提示词:
编写一个经典的扫雷游戏。
K2完成度非常高,UI设计也是扫雷的经典配色。
作为对比,我感觉Claude 4 sonnet的页面就比K2差了一点。
任务3:天气卡片
提示词:
创建一个包含CSS和JavaScript的单一HTML文件,用于生成一个动画天气卡片。该卡片应通过不同的动画效果直观展示以下天气状况:风:(例如移动的云朵、摇曳的树木或风线)雨:(例如落下的雨滴、积水形成)太阳:(例如照射的光线、明亮的背景)雪:(例如落下的雪花、积雪)将所有天气卡片并排显示。卡片应采用深色背景。请将所有HTML、CSS和JavaScript代码包含在此单一文件中。JavaScript代码应包含切换不同天气状况的功能(例如函数或按钮集),以演示每种天气状况的动画效果。
这个是经典的天气卡片任务,当初Claude也是靠这个任务惊艳了不少人。
K2在这个任务上完成度和UI设计感觉比Claude都要差一点。
任务4:太阳系模拟运行
提示词:
编写一个模拟太阳系天体运行的可交互式网页。
自带了一点公转的残影轨迹,但整体上没啥大问题,基本可以用于小学生科普动画演示用了。
作为对比,Claude 4 Sonnet实现效果基本完美。
任务5:3D赛博空间
提示词:
创建一个3D赛博空间。
这个任务纯评各家大模型对于赛博朋克的理解了,K2和Claude做出来东西都比较抽象,但从视觉上看,Claude应该更赛博一点。
Claude 4 Sonnet:
任务6:烟花秀
提示词:
用p5.js实现一个绚丽的夜空烟花秀页面,页面可交互。
这个任务K2没能完成,修改了一轮之后也没有达到效果,没有时间细调,遂放弃尝试。
Claude 4 Sonnet效果虽然也不是很好,但基本实现了功能。
任务7:数据分析与可视化
提示词:
该数据集是2014-2015赛季科比部分比赛的投篮日志数据集。请根据该数据集,自行寻找分析角度,对其进行可视化数据分析。
这个任务数据集来自于kaggle,主要是分析一下科比在2014-15赛季部分比赛场次的投篮日志数据。
K2数据分析本身没啥问题,前端效果呈现上与Claude 4 Sonnet也差不多,都采用了湖人队的紫金配色。
Claude 4 Sonnet:
任务8:积分计算
这是编程任务之外的加试题,测一下K2在数学方面的能力。计算一道定积分,2024 MIT积分决赛压轴题:
看着就很复杂,我肯定不会算。
这一题K2和Claude 4 Sonnet都算错了,K2疯狂思考了七八分钟,但还是算错了。
Claude 4 Sonnet算得很快,但也算错了:
所以我又拿GPT-o3测了一下,GPT-o3算的又快又正确:
论数学推理,感觉还是GPT-o3更强大。
任务1和2是游戏编程,任务3-6是前端编程,任务7是数据分析与可视化,任务8是纯数学计算。虽然测试任务不多,但整体测下来,我感觉Kimi K2的代码能力应该介于Claude 3.7和Claude 4之间,数学推理能力则要明显弱于GPT-o3。
Kimi K2有这个实测效果,感觉很不容易。特别是在年后DeepSeek崛起,六小龙模式岌岌可危的环境下,Kimi能逆势而上,仍然在基座模型上持续发力,颇有一种强势回归的即视感。
也可以看看K2研发人员对K2的评价和一些心路历程(好笑的是,这篇博客被被翻译成英文在国外各大平台转发,真是此一时彼一时也):
传送门:
https://bigeagle.me/2025/07/kimi-k2/
巧合的是,K2发布后,OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。我猜大概率跟K2的开源有关。
后记:机器学习实验室公众号近期在进行内容重组,会更加聚焦AIGC和AGI相关学术、技术与应用。会加大原创内容产出,感谢各位读者的支持。
八年AI算法老兵,目前正在全面拥抱大模型和AIGC。感兴趣的小伙伴可以加我微信(louwill_)交个朋友。
>/ 作者:louwill