TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation¶
日期: 2026-03-13
arXiv: 2603.12665
代码: TacVLA
领域: 机器人 / 触觉感知
关键词: VLA, tactile sensing, contact-aware gating, multimodal fusion, manipulation
一句话总结¶
提出 TacVLA,将紧凑触觉阵列集成到 Transformer VLA 框架中,通过接触感知门控机制(仅在检测到物理接触时激活触觉 token),在约束锁扣拆卸和箱内抓取任务上平均提升 20-60% 成功率,遮挡场景下提升 2.1 倍。
研究背景与动机¶
-
领域现状: VLA 模型(Pi0.5、OpenVLA 等)通过集成预训练 VLM 实现通用机器人操作。但它们仅依赖视觉和语言感知物理世界。
-
现有痛点:
- 视觉遮挡:机械臂末端或被操作物体遮挡相机视野
- 精细接触操作:视觉无法捕捉接触力、摩擦、表面纹理
- 现有触觉集成方法把触觉当图像输入→token 长且计算昂贵
- 简单拼接触觉 token→非接触阶段引入无关噪声
-
核心矛盾: 触觉信号本质上是接触依赖的——只在物理接触时有信息量,非接触阶段是噪声。静态融合机制无法处理这种状态依赖性。
-
切入角度: 引入接触检测→条件性地激活/关闭触觉 token。
-
核心 idea: 紧凑触觉 token 化(15×8 阵列→36 个 token)+ 接触感知门控(\(c_t\) 二值门控,无接触时触觉 token 归零且从注意力中排除)。
方法详解¶
整体框架¶
双相机视觉 + 语言指令 + 触觉阵列 → 各自 tokenize → 接触感知门控处理触觉 token → 所有模态 token 拼接进入预训练 VLM backbone → Flow matching action expert 输出动作序列。
关键设计¶
-
紧凑触觉 token 化:
- 15×8 触觉阵列 → 轻量 MLP 编码器 → 36 个触觉 token
- 加 2D 正弦余弦位置编码保持空间结构
- 与 GelSight 等图像式触觉传感器(数百个 token)相比大幅降低计算成本
-
接触感知门控机制:
- 基于阈值检测接触:\(c_t = 1\) 仅当超过阈值的触觉单元数量超过固定计数
- 无接触时:触觉 token 归零 \(\tilde{\mathbf{z}}_t^{tac} = 0\),注意力掩码排除触觉
- 有接触时:触觉 token 正常参与全部跨模态注意力
- 固定 token 拓扑不变(不动态增删),简化实现
-
非因果注意力前缀:
- 视觉+语言+触觉 token 之间可以自由交叉注意
- Action expert 以此融合表征为条件,用 flow matching 预测连续动作序列
训练策略¶
- 基于 Pi0.5 架构微调
- SigLIP 视觉编码器 + PaliGemma tokenizer
- 在 Franka 7-DoF 机器人上收集真实数据训练
实验关键数据¶
约束锁扣拆卸(4 种任务)¶
| 方法 | Task 1 | Task 2 | Task 3 | Task 4 | 平均 |
|---|---|---|---|---|---|
| Pi0.5 (无触觉) | ~60% | ~40% | ~35% | ~45% | ~45% |
| 简单拼接触觉 | ~65% | ~50% | ~40% | ~50% | ~51% |
| TacVLA | ~80% | ~60% | ~55% | ~65% | ~65% |
箱内抓取¶
| 方法 | 成功率 |
|---|---|
| Pi0.5 (无触觉) | ~30% |
| TacVLA | ~90% |
视觉遮挡鲁棒性测试¶
- TacVLA 在遮挡场景下性能提升 2.1 倍——触觉弥补了视觉缺失
- 人为干扰(推物体)场景下也更鲁棒
关键发现¶
- 接触感知门控比始终开启触觉更好——非接触阶段的触觉噪声确实干扰策略
- 箱内抓取提升最显著(+60%)——这是纯视觉无法完成的任务(手伸入箱内后完全遮挡)
- 36 个触觉 token 即够用,不需要像素级触觉表示
亮点与洞察¶
- 接触感知门控简单但有效——二值开关就能显著提升,比复杂的软注意力机制更高效
- 紧凑 token 化是实用设计:36 个 token vs 图像触觉的数百个 token,在 Transformer 中开销可忽略
- 验证了"触觉是视觉-语言的必要补充"——尤其在遮挡和精细接触场景
局限性 / 可改进方向¶
- 接触阈值是手动设定的硬阈值,不同任务可能需要不同阈值
- 仅在 Franka 平台上评测,跨机器人泛化性未验证
- 触觉阵列分辨率较低(15×8),复杂纹理识别能力有限
- 未探索触觉信号的时序建模(当前只用单帧)
评分¶
- 新颖性: ⭐⭐⭐ 接触门控思路简单直观,触觉+VLA 的组合已有先例
- 实验充分度: ⭐⭐⭐⭐ 多种真实任务+遮挡/干扰鲁棒性测试
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰简洁
- 价值: ⭐⭐⭐⭐ 为 VLA 添加触觉的实用方案,遮挡场景的大幅提升有实际意义