跳转至

TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation

日期: 2026-03-13
arXiv: 2603.12665
代码: TacVLA
领域: 机器人 / 触觉感知
关键词: VLA, tactile sensing, contact-aware gating, multimodal fusion, manipulation

一句话总结

提出 TacVLA,将紧凑触觉阵列集成到 Transformer VLA 框架中,通过接触感知门控机制(仅在检测到物理接触时激活触觉 token),在约束锁扣拆卸和箱内抓取任务上平均提升 20-60% 成功率,遮挡场景下提升 2.1 倍。

研究背景与动机

  1. 领域现状: VLA 模型(Pi0.5、OpenVLA 等)通过集成预训练 VLM 实现通用机器人操作。但它们仅依赖视觉和语言感知物理世界。

  2. 现有痛点:

    • 视觉遮挡:机械臂末端或被操作物体遮挡相机视野
    • 精细接触操作:视觉无法捕捉接触力、摩擦、表面纹理
    • 现有触觉集成方法把触觉当图像输入→token 长且计算昂贵
    • 简单拼接触觉 token→非接触阶段引入无关噪声
  3. 核心矛盾: 触觉信号本质上是接触依赖的——只在物理接触时有信息量,非接触阶段是噪声。静态融合机制无法处理这种状态依赖性。

  4. 切入角度: 引入接触检测→条件性地激活/关闭触觉 token。

  5. 核心 idea: 紧凑触觉 token 化(15×8 阵列→36 个 token)+ 接触感知门控(\(c_t\) 二值门控,无接触时触觉 token 归零且从注意力中排除)。

方法详解

整体框架

双相机视觉 + 语言指令 + 触觉阵列 → 各自 tokenize → 接触感知门控处理触觉 token → 所有模态 token 拼接进入预训练 VLM backbone → Flow matching action expert 输出动作序列。

关键设计

  1. 紧凑触觉 token 化:

    • 15×8 触觉阵列 → 轻量 MLP 编码器 → 36 个触觉 token
    • 加 2D 正弦余弦位置编码保持空间结构
    • 与 GelSight 等图像式触觉传感器(数百个 token)相比大幅降低计算成本
  2. 接触感知门控机制:

    • 基于阈值检测接触:\(c_t = 1\) 仅当超过阈值的触觉单元数量超过固定计数
    • 无接触时:触觉 token 归零 \(\tilde{\mathbf{z}}_t^{tac} = 0\),注意力掩码排除触觉
    • 有接触时:触觉 token 正常参与全部跨模态注意力
    • 固定 token 拓扑不变(不动态增删),简化实现
  3. 非因果注意力前缀:

    • 视觉+语言+触觉 token 之间可以自由交叉注意
    • Action expert 以此融合表征为条件,用 flow matching 预测连续动作序列

训练策略

  • 基于 Pi0.5 架构微调
  • SigLIP 视觉编码器 + PaliGemma tokenizer
  • 在 Franka 7-DoF 机器人上收集真实数据训练

实验关键数据

约束锁扣拆卸(4 种任务)

方法 Task 1 Task 2 Task 3 Task 4 平均
Pi0.5 (无触觉) ~60% ~40% ~35% ~45% ~45%
简单拼接触觉 ~65% ~50% ~40% ~50% ~51%
TacVLA ~80% ~60% ~55% ~65% ~65%

箱内抓取

方法 成功率
Pi0.5 (无触觉) ~30%
TacVLA ~90%

视觉遮挡鲁棒性测试

  • TacVLA 在遮挡场景下性能提升 2.1 倍——触觉弥补了视觉缺失
  • 人为干扰(推物体)场景下也更鲁棒

关键发现

  • 接触感知门控比始终开启触觉更好——非接触阶段的触觉噪声确实干扰策略
  • 箱内抓取提升最显著(+60%)——这是纯视觉无法完成的任务(手伸入箱内后完全遮挡)
  • 36 个触觉 token 即够用,不需要像素级触觉表示

亮点与洞察

  • 接触感知门控简单但有效——二值开关就能显著提升,比复杂的软注意力机制更高效
  • 紧凑 token 化是实用设计:36 个 token vs 图像触觉的数百个 token,在 Transformer 中开销可忽略
  • 验证了"触觉是视觉-语言的必要补充"——尤其在遮挡和精细接触场景

局限性 / 可改进方向

  • 接触阈值是手动设定的硬阈值,不同任务可能需要不同阈值
  • 仅在 Franka 平台上评测,跨机器人泛化性未验证
  • 触觉阵列分辨率较低(15×8),复杂纹理识别能力有限
  • 未探索触觉信号的时序建模(当前只用单帧)

评分

  • 新颖性: ⭐⭐⭐ 接触门控思路简单直观,触觉+VLA 的组合已有先例
  • 实验充分度: ⭐⭐⭐⭐ 多种真实任务+遮挡/干扰鲁棒性测试
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰简洁
  • 价值: ⭐⭐⭐⭐ 为 VLA 添加触觉的实用方案,遮挡场景的大幅提升有实际意义