灵巧手抓放任务成功率100%!帕西尼联合上交大提出融合触觉的VLA模型OmniVTLA

在机器人领域,视觉与触觉感知的融合已成为提升机器人操作能力的一个重要途径。近期,视觉-语言-动作(VLA)模型已在机器人操作任务中取得了显著进展。但大部分VLA模型忽略了触觉感知的重要性,且还存在触觉传感器的异构性以及触觉数据获取难度大的问题,导致其在接触密集型任务中表现不佳。在这里插入图片描述

现有的将触觉融入VLA模型的工作,往往将触觉数据视为低层信号,未能将其与视觉及语言在语义层面对齐。
为此,帕西尼感知联合上海交通大学提出一种将视觉、触觉与语言统一到共享语义空间的视觉触觉语言动作模型OmniVTLA。 该模型通过双编码器路径(ViT和SA-ViT)有效整合了不同类型的触觉数据,并将其与视觉和语言数据结合,使机器人能够更好地理解物体的触觉信息,做出更精准的操作决策。
在这里插入图片描述

真机实验表明,OmniVTLA的性能优于VLA的基准模型π0。在使用夹爪抓放任务中,成功率达到96.9%比基准VLA模型高出21.9%;在使用灵巧手抓放任务中,成功率高达100%。此外,与现有的VLA模型相比,OmniVTLA显著缩短了任务时间,并产生了更平滑的运动轨迹。

论文标题:《OmniVTLA:Vision-Tactile-Language-ActionModel withSemantic-AlignedTactile Sensing》论文链接:https://arxiv.org/pdf/2508.08706
1方法
1.1 采用双路径编码器的整体架构
OmniVTLA模型整体架构如下图所示。该模型在π0的基础上构建,包含三个核心组件:分词器(tokenizers)、主干网络(backbone) 和动作头(action head)。

1)Tokenizers:
语言指令lt:使用PaliGemma分词器(词汇量:257,152)进行处理。
图像观测Iti:使用SigLiP模型进行处理。
触觉观测Ttj:将上述所有模态投影为潜在tokens。
图像处理(包括第三视角和腕部视角):将原始捕获图像调整为224 × 224分辨率,每张图像生成256个tokens。
触觉数据处理:将数据范围归一化为int8格式,并将多传感器输入拼接成单张图像。随后通过一个类ViT编码器处理调整后的224 × 224输入,生成256个tokens。
2)Gemma-2B 主干网络:
Gemma-2B 主干网络处理拼接后的标记,生成动作tokens。
3)动作头:
解码动作tokens,该动作头使用流匹配损失进行训练(遵循π0的设置)。动作表征随末端执行器变化:
两指夹爪:10 tokens(3相对位置 + 6相对角度 + 1夹爪状态)。
四指灵巧手:25 tokens(3相对位置 + 6相对角度 + 16绝对关节位置)
现有工作因触觉与视觉数据间异构性和触觉传感器间的异构性未能充分解决触觉编码器的设计问题。

为此该团队探索了四种方案:
VTLA-FS:触觉编码器从头开始训练,仅依赖有限的遥操作触觉数据。
VTLA-Pre:触觉编码器从一个大规模数据集的预训练视觉编码器初始化,并在少量遥操作数据上微调。
VTLA-SA:触觉编码器首先通过跨模态对比学习实现语义对齐,然后在少量数据上微调。
OmniVTLA:采用双路径编码器,其中一条路径是VTLA-Pre,另一条路径是VTLA-SA。
视触觉传感器通常具有较高的空间分辨率,但时间分辨率较低;而其他的(如Paxini Gen2的多维触觉传感器)则测量力觉信息,虽然空间分辨率相对较低,但能捕获较高的时间分辨率,从而更好地表征。因此,力觉传感器能更好地作为视觉模态的信息补充。
为应对不同触觉传感器的异构性,采用双ViT编码器,通过拼接tokens实现跨传感器理解,解决异构性问题。
1.2 语义对齐的触觉编码器
现有工作探索了针对视触觉传感器的统一表征,但无法泛化到力觉传感器。预训练的AnyTouch编码器在力觉传感器数据集上的材料分类准确率仅为 40.21%,存在严重的跨传感器迁移限制。
在这里插入图片描述

为此,该团队构建了ObjTac数据集,包含对齐的文本、视频和力控型触觉数据,10种类型的56种物体和135K三模态样本,涵盖了视觉、语言和触觉数据。通过这个数据集,OmniVTLA能够学习到更为精准的触觉特征,为机器人提供更加智能化的决策。该数据集的构建通过多次物体交互,记录了大量的触觉和视觉数据,并通过时序同步确保了多模态数据的精确对齐。

2实验
2.1 实验设置
基准模型:研究人员将OmniVTLA与Diffusion Policy (DP)和π0进行对比,将DP作为非VLM的基准模型,将π0作为VLA的基准模型。
系统与任务配置:实验所用的机器人平台包括一个UR5机械臂、一个两指夹爪(集成2个触觉传感器和1个腕部摄像头)、四指灵巧手(集成11个触觉传感器和1个腕部摄像头)和摄像头。
使用两指夹爪对矮罐、方咖啡瓶、口香糖罐、牛奶盒完成抓取和放置任务;使用四指灵巧手对咖啡瓶、牛奶盒完成抓取和放置任务。每个物体以30Hz频率采集40条遥操作轨迹。
在这里插入图片描述

2.2 实验结果
离线验证:
实验结果如下图所示,OmniVTLA在全部对象上取得最低的均方误差(MSE),均值为1.40×10⁻⁴。

真机实验:
使用两指夹爪对比OmniVTLA与其他模型的实验结果如下表所示。OmniVTLA平均成功率达到96.9%,VLA基准模型π0的成功率为75%,成功率远超π0,高出21.9%。

使用四指灵巧手对比OmniVTLA与VLA基准模型π0的实验结果如下表所示。OmniVTLA平均成功率高达100%,π0的成功率为93.8%;且完成时间 (CT) 缩短了6%(从343步减少到322步)。特别是在未经训练的物体(塑料瓶与方瓶)上,OmniVTLA也取得了100%成功率,而π0成功率仅为87.5%。

使用两指夹爪对比VTA与非VLM基准模型DP的实验结果如下表所示。VTA平均成功率为78.1%,DP为59.4%,融入了触觉感知将其平均成功率显著提升了18.7%;并将平均完成时间缩短了19.9%(从851步缩短至682步)。这证实了触觉信号能够增强模型性能,且与所采用的基准模型无关。

轨迹平滑度:
研究人员对比了OmniVTLA与其他模型的轨迹平滑度。VTLA-SA的平均平滑度指标最低为1.04×10⁻⁴,OmniVTLA平均轨迹平滑度为1.46×10⁻⁴,比VLA基准模型π0降低了89.6%。
实验表明,触觉感知能显著提升机器人运动的平滑度,使其更精细地调整抓取动作。还能在缩短任务完成时间的同时,避免接触过程中突兀的急动,这对于抓取易碎物体至关重要。
在这里插入图片描述

定性结果分析:
任务为“抓起矮罐并将其移动到托盘上”,VLA、VTLA-Pre和OmniVTLA模型的失败与成功案例如下图所示。VLA模型由于接触感知能力不足而常常无法抓起物体,VTLA-Pre模型在持续调整夹爪但无法成功抓取,OmniVTLA模型则能够利用触觉信号稳定抓取且运动轨迹平滑。

3总结
本论文提出了一个专为密集接触型操作任务设计的视觉-触觉-语言-动作模型OmniVTLA。为应对触觉数据的异构性和不同触觉传感器的异构性,采用双路径编码器(VTLA-Pre+VTLA-SA)和双ViT编码器。此外,该团队还构建了ObjTac数据集,包含对齐的文本、视频和力控型触觉数据,10种类型的56种物体和135K三模态样本。
实验结果表明,OmniVTLA相较于VLA基准模型π0取得了显著提升,使用两指夹爪任务成功率提升21.9%,四指灵巧手任务成功率提升6.2%。此外,OmniVTLA将任务完成时间缩短了约24.2%,且生成的运动轨迹也更加平滑。

### ITPU多维触觉传感器概述 ITPU多维触觉传感器是由帕西尼感知科技自主研发的一种高精度触觉传感技术,广泛应用于其第二代多维触觉人形机器人TORA-ONE中。该传感器集成了近2000个单元,能够捕捉并解析接触面上的细微形变和多维度触感信息[^1]。 这种传感器的核心功能在于提供丰富的触觉反馈数据,从而增强机器人的交互能力和操作灵活性。通过集成到仿生灵巧中,ITPU传感器可以模拟人类指的感觉,使机器人具备更精细的操作能力。 --- ### ITPU多维触觉传感器的使用方法 #### 集成方式 ITPU多维触觉传感器通常被嵌入到机器人掌或指尖部位,以实现对物体表面特性的精准检测。具体来说,这些传感器可以通过柔性电路板连接到中央处理器,形成分布式网络结构。这种方式允许传感器阵列覆盖较的区域,同时保持较高的分辨率和灵敏度[^1]。 #### 参数配置 在实际应用中,用户可以根据需求调整以下参数: - **采样频率**:用于控制传感器的数据采集速度,一般建议设置为50Hz~1kHz之间。 - **敏感阈值**:定义触发信号所需的最小压力变化量,可根据不同任务动态调节。 - **校准模式**:定期执行零点漂移补偿以及温度影响修正,确保长期稳定性。 --- ### 数据处理流程 为了充分利用ITPU多维触觉传感器获取的信息,需要经过一系列复杂的数据处理步骤: #### 原始数据分析 原始数据由各个独立的传感单元产生,包含力矢量、摩擦系数及热传导特性等多个维度的信息。由于可能存在噪声干扰,因此第一步是对这些初始读数进行滤波和平滑化处理[^1]。 #### 特征提取 基于预处理后的干净数据,进一步提取有意义的特征向量。例如,在取动作过程中,可以从时间序列中分离出接触瞬间的最应力位置及其分布范围;或者分析纹理图案来判断材质属性。 #### 融合其他模态 考虑到单一感官输入可能存在的局限性,帕西尼感知科技开发了VTLA-Model视触觉多模态感知模型。此框架下,来自摄像头图像与触觉测量的结果会被联合考虑,共同指导决策制定过程[^1]。 最后一步则是利用训练好的神经网络预测目标对象的状态类别(如硬度等级),并将最终结论传递给控制系统作为下一步行动依据。 --- ### 示例代码片段 以下是简单的Python脚本演示如何从串口接收ITPU传感器传来的数据包,并对其进行初步过滤: ```python import serial from scipy.signal import butter, filtfilt def read_itpu_data(port='/dev/ttyUSB0', baudrate=9600): ser = serial.Serial(port, baudrate) while True: line = ser.readline().decode('utf-8').strip() yield list(map(float, line.split(','))) def apply_filter(data, cutoff_freq=10, fs=100): nyquist = 0.5 * fs normal_cutoff = cutoff_freq / nyquist b, a = butter(5, normal_cutoff, btype='low', analog=False) filtered_data = filtfilt(b, a, data) return filtered_data if __name__ == "__main__": raw_data = [] for i, sample in enumerate(read_itpu_data()): if i >= 100: break # Collect first 100 samples only raw_data.append(sample) clean_data = [apply_filter(channel) for channel in zip(*raw_data)] print(clean_data[:10]) # Print the first few cleaned points per channel ``` --- ### 总结 综上所述,ITPU多维触觉传感器是一种高度创新的技术解决方案,它不仅提供了强的硬件性能,还辅之以完善的软件配套工具链。无论是科研探索还是工业生产领域,都展现了广阔的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值