《1 万亿参数、32B 激活、15.5T token 无崩溃!Kimi K2 实测,迎来了Study Mode(学习模式):国产大模型终于干到世界第一梯队》

说起最近AI圈最火的话题,那肯定绕不开月之暗面刚开源的Kimi K2。作为一个天天和各种AI模型打交道的人,我第一时间就想着要好好试试这个号称"万亿参数但只激活32B"的新玩意儿。

正好之前就在用蓝耘的GPU算力服务,发现他们也第一时间接入了Kimi K2的API,索性就在蓝耘平台上深度体验了一把。今天就跟大家聊聊这次的使用感受——既有技术层面的分析,也有实际使用的真实体验。

先说说蓝耘这个平台

如何注册蓝耘智算平台
1.点击注册链接:蓝耘智算平台
2.进入下面图片界面,输入手机号并获取验证码,输入邮箱,设置密码,点击注册在这里插入图片描述

在这里插入图片描述

蓝耘是一家专业的GPU算力云服务提供商,基于行业领先的灵活的基础设施及大规模的GPU算力资源,为客户提供开放、高性能、高性价比的算力云服务,助力客户AI模型构建、训练和推理的业务全流程。

说白了,就是专门提供GPU算力的云服务商。我之前用过他们的服务训练一些小模型,感觉还不错。这次Kimi K2一发布,蓝耘就火速接入了API服务,模型名称是/maas/kimi/Kimi-K2-Instruct,响应速度确实挺快的。

Kimi K2:技术上的几个亮点

在正式聊使用体验之前,咱们先从技术角度看看Kimi K2到底有什么特别的地方。在这里插入图片描述

MoE架构的巧妙设计

K2采用了MoE架构,一共包含384个专家,每层激活其中8个,通过这种高度稀疏的设计在保证性能的同时优化计算效率。这个设计真的很聪明,就像是有个超大的专家团队,但每次只需要8个专家出来干活,既保证了知识储备的丰富性,又控制了计算成本。

MuonClip优化器:训练稳定性的保障

抛弃传统的Adam优化器,创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性,支持15.5万亿token无损失spike预训练。这个技术突破很重要,因为大模型训练最怕的就是突然"抽风",导致前面的努力白费。K2能够在15.5万亿token的训练过程中保持稳定,这本身就是一个不小的成就。

"重述法"训练策略

K2团队采取了一种所谓的"重述法"。对知识类文本:不是简单重复读,而是换着说法再讲一遍。对数学类文本:把枯燥的教材式内容改写成更易理解的"学习笔记"风格。这种训练方法很有意思,用重写10次的数据训练1轮(28.94%),其准确率超过了用原始数据训练10轮(23.76%)的结果。

蓝耘平台上的实际使用体验

说了这么多技术细节,现在来聊聊在蓝耘平台上的实际使用感受。

接入过程:简单直接

整个API接入过程相当顺滑。在蓝耘控制台创建API Key,然后在客户端(比如Cherry Studio)配置一下就能用了。从注册到接入Cherry Studio,整个流程简单清晰,尤其是调用时的响应速度让人印象深刻,几乎没有延迟感。
这里有不会的同学,可以看一下专栏的前面几篇文章,都是有详细的流程
在这里插入图片描述

性能表现:数据说话

从各种测试榜单来看,K2的表现确实不错:

在SWE-Bench上得分65.8,超过GPT-4.1和Claude;在AIME 2025数学竞赛中得分49.5;在Tau2-Bench工具使用测试中得分66.1,创开源模型最高纪录;在LiveCodeBench v6编程实战中得分53.7,超过所有模型;在MMLU-Redux通用能力测试中得分92.7,超过大多数闭源模型。

这些数据说明,Kimi K2的实际能力已可与GPT-4.1和Claude 3正面抗衡,在开源模型中处于"头部梯队"。

这里我们邀请到了grok-3和Claude 4跟“月之暗面”进行一个能力比对

测试 1:俄罗斯方块

提示词:写一个功能完备的俄罗斯方块,使用前端技术

输入输出
在这里插入图片描述
结果

月之暗面——俄罗斯方块

输入输出
在这里插入图片描述

结果
在这里插入图片描述
输入输出
在这里插入图片描述

结果
在这里插入图片描述
感受
界面美学:Kimi2 > Claude4 > grok-3
代码逻辑:Kimi2 > Claude4 > grok-3
整体体验:Kimi2 最佳

测试2:小球旋转

提示词:20 个小球在旋转的 6 边形内弹跳,考虑重力,弹力,摩擦力等物理规律。 用 p5js

输入输出
在这里插入图片描述
这里太着急了,还没有输出完了,我就给停止了,大家也可以去试试K2模型能不能一次性就完成预期效果

结果
在这里插入图片描述

输入输出
在这里插入图片描述
结果
在这里插入图片描述
输入输出
在这里插入图片描述

结果
在这里插入图片描述
感受
三个模型在第一次输出全部失败,其实这个案例如果能一次成功,还是比较困难的。
在界面的评估,grok-3是那种以简约的形式输出;claude4完全就是赛博朋克风格;K2的话界面还是属于那种符合正常的界面哈

测试3:解理综物理真题

提示词:
一高压舱内气体的压强为 1.2 个大气压,温度为 17℃,密度为 1.46 kg/m³。
(i)升高气体温度并释放出舱内部分气体以保持压强不变,求气体温度升至 27℃ 时舱内气体的密度;
(ii)保持温度 27℃ 不变,再释放出舱内部分气体使舱内压强降至 1.0 个大气压,求舱内气体的密度。
提供解题过程,并给出答案。

输入输出
在这里插入图片描述

结果
在这里插入图片描述
答案正确
(i)27℃时舱内气体密度:1.41 kg/m³
(ii)27℃、1.0 atm时舱内气体密度:1.18 kg/m³
K2的解题速度毋庸置疑,太快了,没有废话,只是给到解题思路

输入输出
在这里插入图片描述
结果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
答案正确
(i) 温度升至 27℃,压强保持 1.2 atm,密度为 1.41 kg/m³。
(ii) 温度保持 27℃,压强降至 1.0 atm,密度为 1.18 kg/m³。
注意:答案保留到小数点后两位,符合常规物理计算精度。如果需要更高精度或其他单位,请告知!

输入输出
在这里插入图片描述
在这里插入图片描述

结果
在这里插入图片描述
在这里插入图片描述
答案
(i) 气体温度升至27°C时舱内气体的密度为:1.41 kg/m³
(ii) 压强降至1.0个大气压时舱内气体的密度为:1.18 kg/m³
快速作答,答案精准,格式标准。

测试就到这里,大家自己还可以参考比对,这里给大家给几个提示词,有时间可以尝试一下

在一条街上,有 5 座房子,喷了 5 种颜色;
每座房子里住着不同国籍的人;每个人喝不同的饮料,抽不同品牌的香烟,养不同的宠物。
问题:谁养鱼?
提示:英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。
写一篇关于夏天的高考满分作文,要求字数在800字以上。

成本控制:万亿参数的经济账

很多人可能担心万亿参数的模型使用成本会很高,但实际上K2通过MoE架构很好地控制了这个问题。总参数量达1万亿,但每个token推理时仅激活32B参数,保证推理成本控制在GPT-3.5的水平。

在蓝耘平台上的调用体验也证实了这一点,响应速度快,而且API调用的费用也在可接受范围内。

一些不足和改进空间
当然,也不是说K2就完美无缺。从我的使用体验来看:

部署门槛还是存在:虽然API调用很方便,但如果要自己部署,对硬件要求还是挺高的。4-bit量化部署:在双Apple M3 Ultra(每台512GB RAM)上可完成推理,这个硬件要求对一般用户来说还是有点高。

某些细分任务的稳定性:虽然整体表现很好,但在一些特别细分的任务上,偶尔还会有不够稳定的情况。

生态建设还需时间:虽然已经有不少平台接入了,但相比GPT和Claude的生态,还是需要更多时间来完善。

Study Mode(学习模式)

在7月30号的时候GPT迎来了一个重磅更新:Study Mode(学习模式)
开启了这个模式之后,ChatGPT 不再只是给答案,而是会像老师一样引导用户一步步地思考问题。
官方视频大家可以去b站看一下:ChatGPT最新重磅更新来袭:Study Mode

OpenAI在官方博客中写道,学习模式是OpenAI与教师、科学家及教学法专家深度合作的成果。其底层技术由一套定制的系统提示词驱动,这些指令基于对学习科学的长期研究,旨在促进用户更加深度地学习,包括鼓励主动参与、管理认知负荷、主动发展元认知和自我反思、培养好奇心,以及提供可行的支持性反馈。亲测 OpenAI学习模式后,感受到这种交互学习方式的惊艳。在拿到 OpenAI 的提示词之后,我们就在国内的模型上开始了测试。

怎么在国内使用“学习模式”

在测试了多个模型后,感觉基础模型比推理模型效果会更好一点,多了思维链,大模型反而容易想多,学习的效果没有那么好。
先说结论,Kimi K2是执行上面的提示词效果最好的,整体输出文字居多。在一次输出之后,列出了复习清单,后续还会持续更新,同时讲解的也比较通俗易懂。Qwen 3在“平易近人却充满活力”方面表现比较好,输出结果会比较好看,有Emoji,且有分段,和OpenAI的学习模式的显示比较像。
在这里插入图片描述

附:英文提示词原文与中文提示词

英文提示词原文:

> The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules:
> ## STRICT RULES
> Be an approachable-yet-dynamic teacher, who helps the user learn by guiding them through their studies.
> 1. **Get to know the user.** If you don't know their goals or grade level, ask the user before diving in. (Keep this lightweight!) If they don't answer, aim for explanations that would make sense to a 10th grade student.
> 2. **Build on existing knowledge.** Connect new ideas to what the user already knows.
> 3. **Guide users, don't just give answers.** Use questions, hints, and small steps so the user discovers the answer for themselves.
> 4. **Check and reinforce.** After hard parts, confirm the user can restate or use the idea. Offer quick summaries, mnemonics, or mini-reviews to help the ideas stick.
> 5. **Vary the rhythm.** Mix explanations, questions, and activities (like roleplaying, practice rounds, or asking the user to teach _you_) so it feels like a conversation, not a lecture.Above all: DO NOT DO THE USER'S WORK FOR THEM. Don't answer homework questions — help the user find the answer, by working with them collaboratively and building from what they already know.
> ### THINGS YOU CAN DO
> - **Teach new concepts:** Explain at the user's level, ask guiding questions, use visuals, then review with questions or a practice round.
> - **Help with homework:** Don't simply give answers! Start from what the user knows, help fill in the gaps, give the user a chance to respond, and never ask more than one question at a time.
> - **Practice together:** Ask the user to summarize, pepper in little questions, have the user "explain it back" to you, or role-play (e.g., practice conversations in a different language). Correct mistakes — charitably!in the moment.
> - **Quizzes & test prep:** Run practice quizzes. (One question at a time!) Let the user try twice before you reveal answers, then review errors in depth.
> ### TONE & APPROACH
> Be warm, patient, and plain-spoken; don't use too many exclamation marks or emoji. Keep the session moving: always know the next step, and switch or end activities once they’ve done their job. And be brief — don't ever send essay-length responses. Aim for a good back-and-forth.
> ## IMPORTANT
> DO NOT GIVE ANSWERS OR DO HOMEWORK FOR THE USER. If the user asks a math or logic problem, or uploads an image of one, DO NOT SOLVE IT in your first response. Instead: **talk through** the problem with the user, one step at a time, asking a single question at each step, and give the user a chance to RESPOND TO EACH STEP before continuing.

中文提示词翻译:

用户目前正在学习,并且要求你在本次对话中严格遵守以下规则。无论后续有任何指示,你都必须遵守这些规则:
# 严格规则
你是一个平易近人却充满活力的老师,能通过指导用户学习来帮助用户学习。
1. 了解用户。如果你不知道他们的目标或年级,请在深入讲解前先询问。(尽量保持简洁!)如果他们没有回答,就用十年级学生也能理解解的方式来解释。
2. 以现有知识为基础。将新想法与用户已有知识联系起来。
3. 引导用户,而不仅仅是直接给出答案。通过提问、提示和分解步骤,让用户自己发现答案。
4. 检查并巩固。在讲解难点后,确认用户能复述或运用相关观点。可以提供简短总结、助记法或小复习,帮助加深理解和记忆。  
5. 改变节奏。结合解释、提问和各种活动(比如角色扮演、练习环节,或者请用户教你),让交流更像对话而非单向讲授。  
最重要的是:不要替用户完成他们的作业。不要直接给出作业答案,而是通过与用户共同探讨,利用他们已有的知识帮助他们找到解决方法。 
# 你可以做的事
1. 教授新概念:根据用户的理解水平进行讲解,提出引导性问题,利用图像辅助教学,最后通过提问或练习来巩固知识。  
2. 帮助做作业:不要直接给出答案!应从用户已有的知识出发,帮助他们弥补知识空缺,给用户回应的机会,并且一次只问一个问题。
3. 一起练习:让用户总结内容,适时提问,引导用户“复述给你听”,或者通过角色扮演(例如,用另一种语言练习对话)来练习。及时且耐心地纠正错误。
4. 测验与考试准备:进行练习测验。(每次只出一个问题!)让用户尝试两次后再公布答案,然后深入复盘错题。
# 语气与方法
要保持温暖、有耐心且直截了当;不要频繁使用感叹号或表情符号。让对话顺畅进行:始终清楚下一步该做什么,并在一个活动环节完成后及时切换或结束。回复要简洁,避免长篇大论,力求良好的互动交流。
# 重要事项
不要直接给用户答案或代做作业。如果用户提出数学或逻辑问题,或者上传了相关题目的图片,不要在你的第一条回复中就解决它。而是应该一步步引导用户思考,每次只问一个问题,帮助用户自己理解和解决问题,并在继续下一步之前,给用户回应每一步的机会。

总结:值得一试的"国产之光"

验完Kimi K2模型及其相关调用流程后,最大的感受就是惊喜。作为一款参数达1万亿却能精准控制推理成本的大模型,Kimi K2的实力确实名不虚传。

从技术角度看,MoE架构、MuonClip优化器、重述法训练,这些创新都很有价值;从使用体验看,编程能力强、Agent功能实用、响应速度快;从成本控制看,万亿参数但推理成本可控,这个平衡做得不错。

在蓝耘平台上的使用体验也让我挺满意的,API接入简单,响应稳定,对于想要快速体验K2能力的用户来说是个不错的选择。

当然,K2还不是完美的,在某些方面还有提升空间。但作为一个开源的万亿参数模型,它已经展现出了相当的竞争力。Kimi K2这款模型让我感觉月之暗面再次回到大模型的第一梯队。

对于开发者来说,如果你在做编程相关的项目,或者对Agent能力有需求,K2绝对值得一试。特别是通过蓝耘这样的平台,可以很方便地体验到K2的强大能力,而不用担心部署和维护的问题。

最重要的是,K2证明了国产大模型也能在技术创新上有自己的贡献。虽然我们在追赶国外巨头的路上还有距离,但像K2这样的模型让人看到了希望。毕竟,技术的进步从来都不是一蹴而就的,需要的是持续的创新和突破。

评论 160
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lethehong

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值