江湖独行侠-CSDN博客

原创多模态大模型时代的具身智能研究进展的调研与讨论

在人工智能领域日新月异的发展进程中，将多模态大模型能力注入具身智能系统，构建感知与行动一体化的智能体，正逐渐成为学界与产业界协同攻关的前沿焦点。本文系统综述了多模态大模型时代具身智能的研究进展，重点分析其技术框架、应用场景、核心挑战及未来趋势。首先梳理具身智能的发展脉络，从早期理论萌芽到 2024 年以来大模型驱动下的技术突破（如 PaLM-E、RT 系列、OpenVLA 等项目），揭示其从单一感知控制向多模态语义推理的演进路径。其次，深入探讨模仿学习与强化学习的融合、大模型驱动的任务规划、轻量化模型设计等

2025-06-04 08:42:27 1353

原创利用solidworks到处urdf文件方便后续在仿真中使用（以gazebo为例）

点击这个就可以导出了，当然在此之前你要设定你的baselink的坐标啊，以及各个关节的原点以及坐标系（不会的留个言），今晚没空写了。安装好了之后打开solid'works；切记切记是装配体打开，单独一个零件的话是其他方式。仅支持2022以下版本，所以你如果是高版本，你就换个版本。下载完了之后直接安装就好。保存的时候名字是小写哈，因为符合ros的包的命令规则。首先下载一个软件：sw2urdfSetup。

2025-05-08 21:52:04 769

原创填坑！开源语音加大模型定位机械臂抓取！！

该代码主要实现了对机械臂的控制，包括获取机械臂控制器状态、初始化机械臂控制器、控制机械臂移动到指定位置和姿态等功能。通过定义ArmController类，封装了机械臂控制相关的操作，方便在 ROS 环境下进行调用和使用。图像数据处理：通过 ROS 话题订阅相机的彩色图像和深度图像数据，利用 OpenCV 和相关库进行图像格式转换与处理，获取桌子到相机的距离，并保存彩色图像。语音处理：借助麦克风录制音频，使用语音识别库将音频转换为文本内容。目标坐标获取。

2025-05-02 21:56:20 2325 2

原创填坑！在五一之前将LErobot语音控制部分开源，附带代码解读

这是之前发布的一篇文章，当时答应在优化后开源，但是最近一直忙着其他事，没时间优化，但是五一之前，也先填坑吧，后续有其他改动，在进行补充。---这个是盒子桥大佬的github地址，先根据他的配置将环境搭建好，然后去我的仓库中将代码放进去，就ok。这是仓库中代码的名称；相关的api之类的需要你们自己去配一下，我使用的是通义千问，相关的你们可以在官网找到。这里面的通道采样率数据类型等，需要你们根据你们自己的电脑调整。发送过来的话题，然后将话题的信息给回调函数，进行控制。---这个是放我的两个代码的地方。

2025-04-28 16:07:04 1282

原创 Lerobot--so100，不仅能用来强化学习更能通过大模型控制！！

本视频展示 Lerobot 平台下价值 100 美元的机械臂，其可应用于模仿学习、强化学习，还能通过大模型实现控制。本视频是我和“盒子桥”联合开发，感谢他在控制算法上的强大推进，才有了这个视频的呈现，整体架构还不够完善，还有许多不足之处。目前系统整体架构尚不完善，仍存在优化空间，欢迎各位技术爱好者在评论区提出宝贵建议。在技术实现上，代码借助 openai 库搭建与百炼 API 的连接，通过设置代理与 API 密钥实现通信；构建 Recognizer 对象对音频进行识别处理，并利用 ros 话题实现信息传

2025-04-21 22:55:43 1343

原创 Blender-mcp 建模与 Gazebo 仿真实战：从模型创建到虚拟环境部署全流程解析------通过模型的建立让你更加简单便捷的构建你所需要的机器人环境。

本文聚焦于机器人仿真与 3D 建模领域，介绍了使用 Blender-mcp 与 Gazebo 工具进行从模型创建到虚拟环境部署的全流程。Blender-mcp 是基于 Blender 的插件，结合了 Blender 的 3D 建模能力与 MCP 特定需求，适用于机器人等领域模型创建。文章详细阐述了 Blender-mcp 配置中 Claude、Cursor、Blender（3.10 及以上版本）的相关设置步骤，包括获取安装包、配置代码、设置插件等操作，完成配置后可通过在 Claude 聊天框输入指令创建模型

2025-04-19 21:55:07 1251

原创大模型 + 机械臂：通过语音控制实现物体抓取（Gazebo 仿真验证）

大模型 + 机械臂：通过语音控制实现物体抓取（Gazebo 仿真验证）-----非常简单，后续推出复杂行为规划。（说明：包含语音交互、视觉处理、大模型、坐标转换、机械臂控制五大模块，通过 ROS 话题通信）：捕获 Gazebo 相机图像，通过阿里云大模型（Qwen-VL）定位物体中心点像素坐标。：将图像像素坐标转换为机械臂末端执行器的三维坐标（Gazebo 世界坐标系）。：订阅坐标话题，控制机械臂运动和夹爪动作，包含安全机制（忙状态标志。：通过 Qwen-VL 快速定位物体，避免传统视觉算法复杂建模；

2025-04-13 15:43:05 3578 14

原创 LeRobot---如何租用云服务器进行训练----非常良心

基于前一章节；接下来讲在云服务器上的训练。注册你的账号，就可以开始了在算力市场找到你需要的；然后将设置调成我一样的。显卡选你需要的然后点击创建：ok，你已经创建好了，接下来：点击进去。conda init初始化了终端之后，将终端叉掉。再打开。这时终端中有（base）就可以正常操作了。然后和前一章一样，创建环境开始工作：然后激活你的 conda 环境（每次打开 shell 使用 lerobot 时都执行此作！）后面就不用创建了；

2025-03-31 22:44:09 619 9

原创 LeRobot---操作-采集数据--训练///租服务器训练--评估---非常全之大集合----------给你婴儿级别的呵护

一、简单搭建环境首先从lerobot官网上来的便捷一些：一、安装condaminiconda或者anaconda都是可行的。然后激活你的 conda 环境（每次打开 shell 使用 lerobot 时都执行此作！）后面就不用创建了；

2025-03-31 22:09:22 1954

原创 Lerobot如何生成动作控制

在文件中，类用于控制机械臂。self,):在lerobot库中，action通常是一个对象，其含义和数据格式会根据不同类型的机器人有所不同。

2025-03-31 21:24:56 443

原创策略模型生成动作时，其原理和过程是怎样的？

lerobot库中包含多种策略模型，如 ACT、Diffusion、TDMPC 等。这些模型通常是基于 PyTorch 实现的神经网络。# 解析配置文件# 创建策略模型。

2025-03-26 15:32:40 459

原创 Lerobot控制--训练以及评估策略部分

这个代码是用来评估策略的，接下来详细解释这部分的代码是怎么用的，以及和他相关的代码。这个是这里根据config的配置，将机器人类型指定为so-100.record！！！record 的作用记录数据的帧率。record他是怎么上传的？tutorial这里的 --control.tags='["so100","tutorial"]' \recordrecord可以调整时间来适应你的设备。

2025-03-21 12:08:30 1122

原创 lerobot代码解读（4）---1_load_lerobot_dataset.py

导入必要的库。

2025-03-14 15:41:28 462

原创 lerobot代码解读(3)---.cache--2_calculate_validation_loss.py

导入了数学计算库 math、深度学习库 torch，以及自定义的数据集类 LeRobotDataset 和 LeRobotDatasetMetadata，还有扩散策略模型类 DiffusionPolicy。指定预训练策略模型的路径，使用 from_pretrained 方法加载模型，将模型设置为评估模式，并将模型移动到指定设备上。#定义 delta_timestamps 字典，用于指定加载数据时不同观测和动作的时间戳。

2025-03-14 15:13:16 371

原创 lerobot代码解读（2）--examples---1_add_image_transforms.py

用 ToPILImage 将原始帧 frame 和变换后的帧 transformed_frame 转换为 PIL 图像，并分别保存为 original_frame.png 和 transformed_frame.png，保存质量为 100。#建另一个 LeRobotDataset 对象 transformed_dataset，并将之前定义的 transforms 作为 image_transforms 参数传入，这样创建的数据集在获取数据时会应用这些图像变换。

2025-03-14 12:05:36 334

原创具身智能---拼夕夕vla（yolov5+deepseek）

这也可以用鱼香ros一键安装（推荐）

2025-03-01 21:34:47 1305

原创 TinyVLA----具身智能的学习

学习具身智能中

2025-02-24 22:12:52 1007 1

2301_78619377的博客