马斯克的 Grok 3 推理能力真能超越 Deepseek R1? 这个简单问题它翻车了

surfirst

于 2025-02-20 23:42:56 发布

阅读量1k

点赞数 30

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签：大模型人工智能 deepseek Grok

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/surfirst/article/details/145766228

2023年2月18日，马斯克宣布推出了xAI公司最新的大型语言模型——Grok 3.0，声称它是史上最强大的推理模型之一，甚至在推理能力上超越了包括O3 mini和Deepseek R1等今年发布的大模型。随着马斯克宣布可以免费使用Grok 3.0，许多人开始好奇，这个模型究竟有何独特之处，是否真的能够实现推理能力的突破？为了验证这一点，我们决定对其推理能力进行一番全面的评测，一探究竟。

Grok 3.0 简介及基准测试成绩

Grok 3.0是xAI公司最新推出的大型推理模型，基于Colossus超级计算机集群训练，具备10倍于此前最先进模型的计算能力。其主要特点包括：

推理能力：Grok 3.0在数学、编程、世界知识和指令跟随任务上均表现卓越。通过强化学习（RL）的帮助，Grok 3.0具备了高效的推理和问题求解能力，能够在几秒钟到几分钟内进行深度推理，纠正错误，探索替代方案，并给出精准答案。
基准测试成绩：在Chatbot Arena中，Grok 3.0获得了1402的Elo分数，领先于大部分同类模型，证明其强大的推理和交互能力。

Grok 3.0还推出了其mini版——Grok 3 mini，目标是提供更高效的推理解决方案，尤其在成本方面具有竞争力。尽管如此，Grok 3仍是业界关注的焦点，尤其是在推理任务中的表现。

我们的评测：推理能力实测

为了全面评估Grok 3.0的推理能力，我们选用了一个经典且极具挑战性的推理任务——24点游戏。这一数学游戏不依赖于搜索或枚举解决方案，非常适合测试模型的推理和逻辑思维能力。游戏规则如下：

随机抽取四张扑克牌。
仅允许使用加法（+）、减法（-）、乘法（×）、除法（÷）四种运算符。
每张牌必须使用且只能使用一次。
目标是通过这些运算使四

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

surfirst 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。