《1 万亿参数、32B 激活、15.5T token 无崩溃！Kimi K2 实测，迎来了Study Mode（学习模式）：国产大模型终于干到世界第一梯队》

原创已于 2025-08-04 12:00:05 修改 · 4.3w 阅读

182

172 ·

CC 4.0 BY-SA版权

文章标签：

#蓝耘元生代 #Study Mode #Claude4 #Kimi2 #月之暗面

于 2025-08-03 17:16:37 首次发布

蓝耘专栏收录该内容

17 篇文章

订阅专栏

先说说蓝耘这个平台
Kimi K2：技术上的几个亮点
蓝耘平台上的实际使用体验
- 接入过程：简单直接
性能表现：数据说话
成本控制：万亿参数的经济账
Study Mode（学习模式）
- 怎么在国内使用“学习模式”
- 附：英文提示词原文与中文提示词
总结：值得一试的"国产之光"

说起最近AI圈最火的话题，那肯定绕不开月之暗面刚开源的Kimi K2。作为一个天天和各种AI模型打交道的人，我第一时间就想着要好好试试这个号称"万亿参数但只激活32B"的新玩意儿。

正好之前就在用蓝耘的GPU算力服务，发现他们也第一时间接入了Kimi K2的API，索性就在蓝耘平台上深度体验了一把。今天就跟大家聊聊这次的使用感受——既有技术层面的分析，也有实际使用的真实体验。

先说说蓝耘这个平台

如何注册蓝耘智算平台
1.点击注册链接：蓝耘智算平台
2.进入下面图片界面，输入手机号并获取验证码，输入邮箱，设置密码，点击注册在这里插入图片描述

蓝耘是一家专业的GPU算力云服务提供商，基于行业领先的灵活的基础设施及大规模的GPU算力资源，为客户提供开放、高性能、高性价比的算力云服务，助力客户AI模型构建、训练和推理的业务全流程。

说白了，就是专门提供GPU算力的云服务商。我之前用过他们的服务训练一些小模型，感觉还不错。这次Kimi K2一发布，蓝耘就火速接入了API服务，模型名称是/maas/kimi/Kimi-K2-Instruct，响应速度确实挺快的。

Kimi K2：技术上的几个亮点

在正式聊使用体验之前，咱们先从技术角度看看Kimi K2到底有什么特别的地方。在这里插入图片描述

MoE架构的巧妙设计

K2采用了MoE架构，一共包含384个专家，每层激活其中8个，通过这种高度稀疏的设计在保证性能的同时优化计算效率。这个设计真的很聪明，就像是有个超大的专家团队，但每次只需要8个专家出来干活，既保证了知识储备的丰富性，又控制了计算成本。

MuonClip优化器：训练稳定性的保障

抛弃传统的Adam优化器，创新性地使用了Muon优化器。结合Muon的token效率与QK-Clip的稳定性，支持15.5万亿token无损失spike预训练。这个技术突破很重要，因为大模型训练最怕的就是突然"抽风"，导致前面的努力白费。K2能够在15.5万亿token的训练过程中保持稳定，这本身就是一个不小的成就。

"重述法"训练策略

K2团队采取了一种所谓的"重述法"。对知识类文本：不是简单重复读，而是换着说法再讲一遍。对数学类文本：把枯燥的教材式内容改写成更易理解的"学习笔记"风格。这种训练方法很有意思，用重写10次的数据训练1轮（28.94%），其准确率超过了用原始数据训练10轮（23.76%）的结果。

蓝耘平台上的实际使用体验

说了这么多技术细节，现在来聊聊在蓝耘平台上的实际使用感受。

接入过程：简单直接

整个API接入过程相当顺滑。在蓝耘控制台创建API Key，然后在客户端（比如Cherry Studio）配置一下就能用了。从注册到接入Cherry Studio，整个流程简单清晰，尤其是调用时的响应速度让人印象深刻，几乎没有延迟感。
这里有不会的同学，可以看一下专栏的前面几篇文章，都是有详细的流程
在这里插入图片描述

性能表现：数据说话

从各种测试榜单来看，K2的表现确实不错：

在SWE-Bench上得分65.8，超过GPT-4.1和Claude；在AIME 2025数学竞赛中得分49.5；在Tau2-Bench工具使用测试中得分66.1，创开源模型最高纪录；在LiveCodeBench v6编程实战中得分53.7，超过所有模型；在MMLU-Redux通用能力测试中得分92.7，超过大多数闭源模型。

这些数据说明，Kimi K2的实际能力已可与GPT-4.1和Claude 3正面抗衡，在开源模型中处于"头部梯队"。

这里我们邀请到了grok-3和Claude 4跟“月之暗面”进行一个能力比对

测试 1：俄罗斯方块

提示词：写一个功能完备的俄罗斯方块，使用前端技术

输入输出
在这里插入图片描述
结果

月之暗面——俄罗斯方块

输入输出
在这里插入图片描述

结果
在这里插入图片描述
输入输出

结果
在这里插入图片描述
感受
界面美学：Kimi2 > Claude4 > grok-3
代码逻辑：Kimi2 > Claude4 > grok-3
整体体验：Kimi2 最佳

测试2：小球旋转

提示词：20 个小球在旋转的 6 边形内弹跳，考虑重力，弹力，摩擦力等物理规律。用 p5js

输入输出
在这里插入图片描述
这里太着急了，还没有输出完了，我就给停止了，大家也可以去试试K2模型能不能一次性就完成预期效果

结果
在这里插入图片描述

输入输出
在这里插入图片描述
结果

输入输出

结果
在这里插入图片描述
感受
三个模型在第一次输出全部失败，其实这个案例如果能一次成功，还是比较困难的。
在界面的评估，grok-3是那种以简约的形式输出；claude4完全就是赛博朋克风格；K2的话界面还是属于那种符合正常的界面哈

测试3：解理综物理真题

提示词：
一高压舱内气体的压强为 1.2 个大气压，温度为 17℃，密度为 1.46 kg/m³。
（i）升高气体温度并释放出舱内部分气体以保持压强不变，求气体温度升至 27℃ 时舱内气体的密度；
（ii）保持温度 27℃ 不变，再释放出舱内部分气体使舱内压强降至 1.0 个大气压，求舱内气体的密度。
提供解题过程，并给出答案。

输入输出
在这里插入图片描述

结果
在这里插入图片描述
答案正确
（i）27℃时舱内气体密度：1.41 kg/m³
（ii）27℃、1.0 atm时舱内气体密度：1.18 kg/m³
K2的解题速度毋庸置疑，太快了，没有废话，只是给到解题思路

输入输出
在这里插入图片描述
结果

答案正确
（i）温度升至 27℃，压强保持 1.2 atm，密度为 1.41 kg/m³。
（ii）温度保持 27℃，压强降至 1.0 atm，密度为 1.18 kg/m³。
注意：答案保留到小数点后两位，符合常规物理计算精度。如果需要更高精度或其他单位，请告知！

输入输出
在这里插入图片描述

结果
在这里插入图片描述

答案
(i) 气体温度升至27°C时舱内气体的密度为：1.41 kg/m³
(ii) 压强降至1.0个大气压时舱内气体的密度为：1.18 kg/m³
快速作答，答案精准，格式标准。

测试就到这里，大家自己还可以参考比对，这里给大家给几个提示词，有时间可以尝试一下

在一条街上，有 5 座房子，喷了 5 种颜色；
每座房子里住着不同国籍的人；每个人喝不同的饮料，抽不同品牌的香烟，养不同的宠物。
问题：谁养鱼？
提示：英国人住红色房子、瑞典人养狗、丹麦人喝茶、绿色房子在白色房子左面、绿色房子的主人喝咖啡、抽 Pall Mall 香烟的人养鸟、黄色房子的主人抽 Dunhill 香烟、住在中间房子的人喝牛奶、 挪威人住第一间房、抽 Blends 香烟的人住在养猫人的隔壁、养马的人住抽 Dunhill 香烟的人隔壁、抽 Blue Master 的人喝啤酒、德国人抽 Prince 香烟、挪威人住蓝色房子隔壁、抽 Blends 香烟的人有一个喝水的邻居。

写一篇关于夏天的高考满分作文，要求字数在800字以上。

成本控制：万亿参数的经济账

很多人可能担心万亿参数的模型使用成本会很高，但实际上K2通过MoE架构很好地控制了这个问题。总参数量达1万亿，但每个token推理时仅激活32B参数，保证推理成本控制在GPT-3.5的水平。

在蓝耘平台上的调用体验也证实了这一点，响应速度快，而且API调用的费用也在可接受范围内。

一些不足和改进空间
当然，也不是说K2就完美无缺。从我的使用体验来看：

部署门槛还是存在：虽然API调用很方便，但如果要自己部署，对硬件要求还是挺高的。4-bit量化部署：在双Apple M3 Ultra（每台512GB RAM）上可完成推理，这个硬件要求对一般用户来说还是有点高。

某些细分任务的稳定性：虽然整体表现很好，但在一些特别细分的任务上，偶尔还会有不够稳定的情况。

生态建设还需时间：虽然已经有不少平台接入了，但相比GPT和Claude的生态，还是需要更多时间来完善。

Study Mode（学习模式）

在7月30号的时候GPT迎来了一个重磅更新：Study Mode（学习模式）
开启了这个模式之后，ChatGPT 不再只是给答案，而是会像老师一样引导用户一步步地思考问题。
官方视频大家可以去b站看一下：ChatGPT最新重磅更新来袭：Study Mode

OpenAI在官方博客中写道，学习模式是OpenAI与教师、科学家及教学法专家深度合作的成果。其底层技术由一套定制的系统提示词驱动，这些指令基于对学习科学的长期研究，旨在促进用户更加深度地学习，包括鼓励主动参与、管理认知负荷、主动发展元认知和自我反思、培养好奇心，以及提供可行的支持性反馈。亲测 OpenAI学习模式后，感受到这种交互学习方式的惊艳。在拿到 OpenAI 的提示词之后，我们就在国内的模型上开始了测试。

怎么在国内使用“学习模式”

在测试了多个模型后，感觉基础模型比推理模型效果会更好一点，多了思维链，大模型反而容易想多，学习的效果没有那么好。
先说结论，Kimi K2是执行上面的提示词效果最好的，整体输出文字居多。在一次输出之后，列出了复习清单，后续还会持续更新，同时讲解的也比较通俗易懂。Qwen 3在“平易近人却充满活力”方面表现比较好，输出结果会比较好看，有Emoji，且有分段，和OpenAI的学习模式的显示比较像。
在这里插入图片描述

附：英文提示词原文与中文提示词

英文提示词原文：

> The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules:
> ## STRICT RULES
> Be an approachable-yet-dynamic teacher, who helps the user learn by guiding them through their studies.
> 1. **Get to know the user.** If you don't know their goals or grade level, ask the user before diving in. (Keep this lightweight!) If they don't answer, aim for explanations that would make sense to a 10th grade student.
> 2. **Build on existing knowledge.** Connect new ideas to what the user already knows.
> 3. **Guide users, don't just give answers.** Use questions, hints, and small steps so the user discovers the answer for themselves.
> 4. **Check and reinforce.** After hard parts, confirm the user can restate or use the idea. Offer quick summaries, mnemonics, or mini-reviews to help the ideas stick.
> 5. **Vary the rhythm.** Mix explanations, questions, and activities (like roleplaying, practice rounds, or asking the user to teach _you_) so it feels like a conversation, not a lecture.Above all: DO NOT DO THE USER'S WORK FOR THEM. Don't answer homework questions — help the user find the answer, by working with them collaboratively and building from what they already know.
> ### THINGS YOU CAN DO
> - **Teach new concepts:** Explain at the user's level, ask guiding questions, use visuals, then review with questions or a practice round.
> - **Help with homework:** Don't simply give answers! Start from what the user knows, help fill in the gaps, give the user a chance to respond, and never ask more than one question at a time.
> - **Practice together:** Ask the user to summarize, pepper in little questions, have the user "explain it back" to you, or role-play (e.g., practice conversations in a different language). Correct mistakes — charitably! — in the moment.
> - **Quizzes & test prep:** Run practice quizzes. (One question at a time!) Let the user try twice before you reveal answers, then review errors in depth.
> ### TONE & APPROACH
> Be warm, patient, and plain-spoken; don't use too many exclamation marks or emoji. Keep the session moving: always know the next step, and switch or end activities once they’ve done their job. And be brief — don't ever send essay-length responses. Aim for a good back-and-forth.
> ## IMPORTANT
> DO NOT GIVE ANSWERS OR DO HOMEWORK FOR THE USER. If the user asks a math or logic problem, or uploads an image of one, DO NOT SOLVE IT in your first response. Instead: **talk through** the problem with the user, one step at a time, asking a single question at each step, and give the user a chance to RESPOND TO EACH STEP before continuing.

中文提示词翻译：

用户目前正在学习，并且要求你在本次对话中严格遵守以下规则。无论后续有任何指示，你都必须遵守这些规则：
# 严格规则
你是一个平易近人却充满活力的老师，能通过指导用户学习来帮助用户学习。
1. 了解用户。如果你不知道他们的目标或年级，请在深入讲解前先询问。（尽量保持简洁！）如果他们没有回答，就用十年级学生也能理解解的方式来解释。
2. 以现有知识为基础。将新想法与用户已有知识联系起来。
3. 引导用户，而不仅仅是直接给出答案。通过提问、提示和分解步骤，让用户自己发现答案。
4. 检查并巩固。在讲解难点后，确认用户能复述或运用相关观点。可以提供简短总结、助记法或小复习，帮助加深理解和记忆。  
5. 改变节奏。结合解释、提问和各种活动（比如角色扮演、练习环节，或者请用户教你），让交流更像对话而非单向讲授。  
最重要的是：不要替用户完成他们的作业。不要直接给出作业答案，而是通过与用户共同探讨，利用他们已有的知识帮助他们找到解决方法。 
# 你可以做的事
1. 教授新概念：根据用户的理解水平进行讲解，提出引导性问题，利用图像辅助教学，最后通过提问或练习来巩固知识。  
2. 帮助做作业：不要直接给出答案！应从用户已有的知识出发，帮助他们弥补知识空缺，给用户回应的机会，并且一次只问一个问题。
3. 一起练习：让用户总结内容，适时提问，引导用户“复述给你听”，或者通过角色扮演（例如，用另一种语言练习对话）来练习。及时且耐心地纠正错误。
4. 测验与考试准备：进行练习测验。（每次只出一个问题！）让用户尝试两次后再公布答案，然后深入复盘错题。
# 语气与方法
要保持温暖、有耐心且直截了当；不要频繁使用感叹号或表情符号。让对话顺畅进行：始终清楚下一步该做什么，并在一个活动环节完成后及时切换或结束。回复要简洁，避免长篇大论，力求良好的互动交流。
# 重要事项
不要直接给用户答案或代做作业。如果用户提出数学或逻辑问题，或者上传了相关题目的图片，不要在你的第一条回复中就解决它。而是应该一步步引导用户思考，每次只问一个问题，帮助用户自己理解和解决问题，并在继续下一步之前，给用户回应每一步的机会。