2023年2月18日,马斯克宣布推出了xAI公司最新的大型语言模型——Grok 3.0,声称它是史上最强大的推理模型之一,甚至在推理能力上超越了包括O3 mini和Deepseek R1等今年发布的大模型。随着马斯克宣布可以免费使用Grok 3.0,许多人开始好奇,这个模型究竟有何独特之处,是否真的能够实现推理能力的突破?为了验证这一点,我们决定对其推理能力进行一番全面的评测,一探究竟。
Grok 3.0 简介及基准测试成绩
Grok 3.0是xAI公司最新推出的大型推理模型,基于Colossus超级计算机集群训练,具备10倍于此前最先进模型的计算能力。其主要特点包括:
- 推理能力:Grok 3.0在数学、编程、世界知识和指令跟随任务上均表现卓越。通过强化学习(RL)的帮助,Grok 3.0具备了高效的推理和问题求解能力,能够在几秒钟到几分钟内进行深度推理,纠正错误,探索替代方案,并给出精准答案。
- 基准测试成绩:在Chatbot Arena中,Grok 3.0获得了1402的Elo分数,领先于大部分同类模型,证明其强大的推理和交互能力。
Grok 3.0还推出了其mini版——Grok 3 mini,目标是提供更高效的推理解决方案,尤其在成本方面具有竞争力。尽管如此,Grok 3仍是业界关注的焦点,尤其是在推理任务中的表现。
我们的评测:推理能力实测
为了全面评估Grok 3.0的推理能力,我们选用了一个经典且极具挑战性的推理任务——24点游戏。这一数学游戏不依赖于搜索或枚举解决方案,非常适合测试模型的推理和逻辑思维能力。游戏规则如下:
- 随机抽取四张扑克牌。
- 仅允许使用加法(+)、减法(-)、乘法(×)、除法(÷)四种运算符。
- 每张牌必须使用且只能使用一次。
- 目标是通过这些运算使四