摘要
具身人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,是连接数字世界与物理世界的各类应用的基础。近年来,多模态大模型(MLMs)和世界模型(WMs)因其卓越的感知、交互和推理能力而备受关注,有望成为具身智能体的“大脑”架构。然而,在多模态大模型时代,目前尚缺乏对具身人工智能的全面综述。在本次调研中,我们对具身人工智能的最新进展进行了全面探索。我们的分析首先深入研究具身机器人和模拟器的代表性前沿作品,以充分理解研究重点及其局限性。接着,我们分析了四个主要研究目标:1)具身感知;2)具身交互;3)具身智能体;4)模拟到现实的适应,涵盖了最先进的方法、基本范式和全面的数据集。此外,我们还探讨了多模态大模型在虚拟和真实具身智能体中的复杂性,强调其在促进动态数字和物理环境中交互的重要意义。最后,我们总结了具身人工智能面临的挑战和局限性,并讨论了其潜在的未来发展方向。我们希望本次调研能为研究社区提供基础参考,激发持续创新。相关项目可在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。
论文作者:Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Fellow, IEEE, Liang Lin, Fellow, IEEE
论文背景
在人工智能领域的快速发展中,具身智能正迅速成为一个备受关注的研究方向。具身智能不仅仅局限于解决虚拟环境中的抽象问题,更强调智能体与现实世界的交互能力。它被视为实现通用人工智能的重要途径,其核心在于智能体能够在数字空间和物理世界中灵活应对复杂多变的环境。
近年来,多模态大模型和机器人技术的快速发展为具身智能研究带来了新的机遇。然而,目前学术界缺乏一个全面系统的具身智能研究现状梳理。为填补这一空白,鹏城实验室多智能体与具身智能研究所联合中山大学HCP实验室的研究人员对近400篇相关文献进行了深入调研,推出了多模态大模型时代的全球首篇具身智能综述。。
一、核心概念与发展背景
具身人工智能旨在让智能体在物理世界中展现智能,通过与环境互动解决复杂任务,被视为实现通用人工智能(AGI)的重要途径。近年来,多模态大模型(MLMs)和世界模型(WMs)的出现,为具身智能体提供了强大的感知、交互和推理能力,使其成为该领域的研究热点。然而,目前尚缺乏对具身人工智能在MLMs时代的全面综述。本文旨在填补这一空白,对具身人工智能的最新进展进行全面梳理,包括具身机器人、模拟器、四个主要研究任务(具身感知、具身交互、具身智能体和模拟到现实的适应)以及未来研究方向。
二、具身机器人
(一)固定基座机器人
常用于实验室自动化、教育培训和工业制造,具有结构紧凑、操作精度高的特点,但固定基座设计限制了其操作范围和灵活性。
(二)轮式和履带式机器人
- 轮式机器人:适用于物流、仓储和安全巡检等场景,移动效率高,但在复杂地形和恶劣环境中的机动性受限。
- 履带式机器人:具备强大的越野能力和机动性,适用于农业、建筑和灾难恢复等领域,但能耗较高,移动速度较慢。
(三)四足机器人
稳定性和适应性强,能在复杂地形中保持平衡和移动,适用于探索、救援和