【论文阅读】具身人工智能（Embodied AI）综述：连接数字与物理世界的桥梁

最新推荐文章于 2025-06-11 15:20:31 发布

盲愚

最新推荐文章于 2025-06-11 15:20:31 发布

阅读量5.7k

点赞数 25

CC 4.0 BY-SA版权

文章标签：论文阅读人工智能计算机视觉深度学习语言模型 chatgpt 机器人

本文链接：https://blog.csdn.net/sanmenrenjian/article/details/144220963

摘要

具身人工智能（Embodied AI）对于实现通用人工智能（AGI）至关重要，是连接数字世界与物理世界的各类应用的基础。近年来，多模态大模型（MLMs）和世界模型（WMs）因其卓越的感知、交互和推理能力而备受关注，有望成为具身智能体的“大脑”架构。然而，在多模态大模型时代，目前尚缺乏对具身人工智能的全面综述。在本次调研中，我们对具身人工智能的最新进展进行了全面探索。我们的分析首先深入研究具身机器人和模拟器的代表性前沿作品，以充分理解研究重点及其局限性。接着，我们分析了四个主要研究目标：1）具身感知；2）具身交互；3）具身智能体；4）模拟到现实的适应，涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了多模态大模型在虚拟和真实具身智能体中的复杂性，强调其在促进动态数字和物理环境中交互的重要意义。最后，我们总结了具身人工智能面临的挑战和局限性，并讨论了其潜在的未来发展方向。我们希望本次调研能为研究社区提供基础参考，激发持续创新。相关项目可在 https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List 找到。
论文作者：Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, Fellow, IEEE, Liang Lin, Fellow, IEEE

论文背景

在人工智能领域的快速发展中，具身智能正迅速成为一个备受关注的研究方向。具身智能不仅仅局限于解决虚拟环境中的抽象问题，更强调智能体与现实世界的交互能力。它被视为实现通用人工智能的重要途径，其核心在于智能体能够在数字空间和物理世界中灵活应对复杂多变的环境。

近年来，多模态大模型和机器人技术的快速发展为具身智能研究带来了新的机遇。然而，目前学术界缺乏一个全面系统的具身智能研究现状梳理。为填补这一空白，鹏城实验室多智能体与具身智能研究所联合中山大学HCP实验室的研究人员对近400篇相关文献进行了深入调研，推出了多模态大模型时代的全球首篇具身智能综述。。

一、核心概念与发展背景

具身人工智能旨在让智能体在物理世界中展现智能，通过与环境互动解决复杂任务，被视为实现通用人工智能（AGI）的重要途径。近年来，多模态大模型（MLMs）和世界模型（WMs）的出现，为具身智能体提供了强大的感知、交互和推理能力，使其成为该领域的研究热点。然而，目前尚缺乏对具身人工智能在MLMs时代的全面综述。本文旨在填补这一空白，对具身人工智能的最新进展进行全面梳理，包括具身机器人、模拟器、四个主要研究任务（具身感知、具身交互、具身智能体和模拟到现实的适应）以及未来研究方向。
在这里插入图片描述