商汤最新研究:GPT-5比其他所有模型都要强,但是相比人类还差得远

[提交日期:2025 年 8 月 18 日
paper:Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
作者:商汤科技*南洋理工

  1. GPT-5在空间智能方面展现出前所未有的强大能力,并在度量测量(MM)和空间关系(SR)等任务上达到人类水平,刷新了该领域的最新技术水平。
  2. 然而,该模型在心理重建(MR)、透视取景(PT)、变形与组装(DA)以及综合推理(CR)等核心空间智能任务上,与人类表现仍存在显著差距。
  3. 此外,研究指出多模态大语言模型(MLLMs)在空间智能任务上的表现普遍不如非空间智能任务,且专有模型在面对最困难的空间智能问题时,相较于开源模型未展现出决定性优势。

这篇题为“Has GPT-5 Achieved Spatial Intelligence? An Empirical Study”的论文,由来自SenseTime Research和S-Lab, Nanyang Technological University的研究者共同完成。
在这里插入图片描述

摘要与引言:
近年来,多模态模型(Multi-modal Large Language Models, MLLMs)取得了显著进展,但在空间理解和推理(Spatial Intelligence, SI)这一对实现通用人工智能(Artificial General Intelligence, AGI)至关重要的能力上,仍存在明显局限。随着GPT-5的发布,本文旨在评估当前领先模型在空间智能方面的进展。为此,研究者提出了一套全面的空间任务分类体系,统一了现有基准,并讨论了确保公平评估的挑战。他们评估了GPT-5以及其他最先进的专有和开源模型在八个关键基准上的表现,总耗费超过十亿tokens。实证研究揭示:1) GPT-5在空间智能方面展现出前所未有的强大能力;2) 然而,在广泛的任务中,其表现仍远低于人类水平;3) 多模态模型在心理重建(Mental Reconstruction, MR)、视角转换(Perspective-taking, PT)、变形与组装(Deformation and Assembly, DA)和综合推理(Comprehensive Reasoning, CR)等更具挑战性的空间智能问题上表现尤为吃力;4) 在面对最困难的问题时,专有模型并未展现出决定性的优势。此外,研究还进行了定性评估,发现即使是最先进的多模态模型也难以应对对人类来说直观的场景。
在这里插入图片描述

评估基准与方法论:

  1. 六大基本能力(Six Fundamental Capabilities):为了统一现有的空间智能评估基准,研究者提炼出六项核心空间能力:

    • Metric Measurement (MM):从2D观测推断3D尺寸(如度量深度或长度),这在没有额外信息(如相机内参)的情况下本身具有模糊性,因此反映了对物理尺度和典型物体尺寸的理解。
    • Mental Reconstruction (MR):评估模型从一个或多个受限视角理解物体精细几何结构的能力,要求从有限的2D观测中推断完整的3D结构,有时还需要执行虚拟操作,如心理旋转。
    • Spatial Relations (SR):关注理解相机视野中多个物体的相对位置和方向,可以看作是建立在MM和MR能力之上。通常涉及概念化和应用虚拟坐标系以支持推理过程。
    • Perspective-taking (PT):涉及在不同视角之间进行推理(例如,对齐自我中心和外在视角)。这可能包括构建场景的心理3D表示、在场景层面推理多个对象,以及在相机视角变化下进行显式推理。即使只有一个图像,通过想象视角变化也属于此类别。
    • Deformation and Assembly (DA):处理形状变化或结构改变的理解和推理,例如系绳结、解释盒子展开图和组装多个零件。这对于具身AI至关重要,因为操作需要对这些结构转换进行推理。
    • Comprehensive Reasoning (CR):需要协调使用各种空间能力,结合扩展记忆和多阶段推理。例子包括在大型动态环境中导航,以及解决长序列的拼图或心理模拟复杂的物理交互。
  2. 基准统计(Benchmark Statistics):研究评估了八个近期发布的关键基准,包括VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition和SpatialViz。这些基准的近期发布表明该领域研究关注度日益增长。

  3. 评估协议(Evaluation Protocols):为确保评估的准确性和公平性,研究统一了度量、系统提示、答案匹配方法和评估策略:

    • 度量(Metrics):对于多项选择题(MCQ),采用机会调整准确率(Chance-Adjusted Accuracy, CAA) CAA = ∑ i = 1 N ( X i − 1 / n i ) N − ∑ i = 1 N ( 1 / n i ) \text{CAA} = \frac{\sum_{i=1}^{N} (X_i - 1/n_i)}{N - \sum_{i=1}^{N} (1/n_i)} CAA=Ni=1N(1/ni)i=1N(Xi1/ni),其中 X i X_i Xi表示第 i i i个问题是否正确, n i n_i ni表示选项数量,以消除随机猜测的混淆效应。对于数值回答(Numerical Answer, NA)问题,采用平均相对准确率(Mean Relative Accuracy, MRA) MRA = 1 10 ∑ θ ∈ C 1 { ∣ y ^ − y ∣ y < 1 − θ } \text{MRA} = \frac{1}{10}\sum_{\theta \in C} 1\left\{ \frac{|\hat{y} - y|}{y} < 1 - \theta \right\} MRA=101θC1{yy^y<1θ},其中 y y y为真值, y ^ \hat{y} y^为预测值, C = { 0.5 , 0.55 , … , 0.95 } C = \{0.5, 0.55, \dots, 0.95\} C={0.5,0.55,,0.95}
    • 系统提示(System Prompts):采用零样本思维链(zero-shot Chain-of-Thought, CoT) 方法,并结合答案模板,要求模型将推理过程和最终答案分别封装在<think></think><answer></answer>标签中,以提高答案匹配精度并激发模型推理能力。
    • 答案匹配方法(Answer-Matching Methods):采用三步匹配过程:1) 初始基于规则匹配(<answer></answer>标签内);2) 扩展基于规则匹配(如"Answer:"等模式);3) LLM辅助提取。
    • 循环评估(Circular Evaluation):为减少选项位置偏差,对部分基准采用循环评估策略,即每个多选题旋转选项呈现多次。分数计算有**软循环得分(Soft-circular scoring)硬循环得分(Hard-circular scoring)**两种,后者要求所有旋转变体都正确才算正确,作为更严格的衡量标准。
      在这里插入图片描述

主要结果与发现:

  1. GPT-5在空间智能方面树立新SOTA:GPT-5在绝大多数子类别任务上表现出明显优势,甚至在MM和SR任务(如绝对距离、物体和房间尺寸)上达到或超越人类水平。在视角转换(PT)任务上也有显著提升。
  2. GPT-5尚未完全掌握空间智能:尽管GPT-5有显著进步,但在MR、PT、DA和CR等能力上,与人类表现仍存在较大差距。
  3. 空间智能任务比非空间智能任务更具挑战性:MLLMs在SI任务上的表现显著差于非SI任务,例如在MMSI等综合性基准上,GPT-5也远未达到人类水平。在OmniSpatial、STARE、CoreCognition和SpatialViz中,SI任务的模型与人类表现差距更大。
  4. 专有模型在困难SI任务上不具决定性优势:尽管专有模型总体优于开源模型,但在最困难的SI类别(MR、PT、DA、CR)上,这种优势减弱。在MMSI、OmniSpatial、STARE和SpatialViz等基准上,专有和开源模型表现相似,均远低于人类水平。

消融研究:

  1. GPT-5的思维模式:研究发现,通过调整API的effort参数,GPT-5的推理tokens量随思维模式(Minimal, Low, Medium, High)增加,准确率从Minimal到Medium提升。High模式下虽然原始准确率最高,但因超时或token限制导致大量失败,使得最终报告准确率下降。Medium模式通常提供更平衡的准确率-成本权衡。
  2. 循环策略:非循环测试到软/硬循环测试的准确率大幅下降,表明部分非循环测试的准确性来自随机猜测。硬循环度量更能反映真实任务能力。但由于模型排名在非循环和硬循环评估模式下基本一致,且非循环评估成本较低,因此主要采用非循环评估。

案例研究:
定性评估进一步揭示了GPT-5的优势和局限。例如,GPT-5在基本现实世界图像的MM任务上表现可靠,但遇到复杂视角效果的SR任务时,仍未能识别物体真实尺寸。在MR任务上,GPT-5首次展现出从多视角重建物体的强大能力,并在激活思维模式后能生成正确的俯视图,但对提示高度敏感,且在某些对人类孩子来说简单的任务上仍然失败。PT任务对所有SOTA模型仍具挑战性,GPT-5虽尝试建立视觉对应,但常误解相机旋转。DA任务仍然是关键弱点,GPT-5在需要心理折叠或推理结构转换(如将2D网格折叠成3D立方体)的任务上失败。CR任务(如计数部分被遮挡的物体)也困扰着GPT-5,尽管能识别可见方块,但无法通过空间推理推断隐藏方块的存在。
在这里插入图片描述

结论:
本研究表明,空间智能对最先进的多模态大模型提出了独特的挑战,即使是GPT-5,在SI方面虽表现出色并树立新标杆,但在关键领域仍远未达到人类水平。研究工作还提出了统一现有空间智能基准的基本能力集合,并详细分析了最新模型存在的局限性,旨在为未来MLLMs空间智能研究奠定基础,指导方法改进,并促进累积进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值