TacVLA: Contact-Aware Tactile Fusion for Robust Vision-Language-Action Manipulation¶

日期: 2026-03-13
arXiv: 2603.12665
代码: TacVLA
领域: 机器人 / 触觉感知
关键词: VLA, tactile sensing, contact-aware gating, multimodal fusion, manipulation

一句话总结¶

提出 TacVLA，将紧凑触觉阵列集成到 Transformer VLA 框架中，通过接触感知门控机制（仅在检测到物理接触时激活触觉 token），在约束锁扣拆卸和箱内抓取任务上平均提升 20-60% 成功率，遮挡场景下提升 2.1 倍。

领域现状: VLA 模型（Pi0.5、OpenVLA 等）通过集成预训练 VLM 实现通用机器人操作。但它们仅依赖视觉和语言感知物理世界。
现有痛点:
- 视觉遮挡：机械臂末端或被操作物体遮挡相机视野
- 精细接触操作：视觉无法捕捉接触力、摩擦、表面纹理
- 现有触觉集成方法把触觉当图像输入→token 长且计算昂贵
- 简单拼接触觉 token→非接触阶段引入无关噪声
核心矛盾: 触觉信号本质上是接触依赖的——只在物理接触时有信息量，非接触阶段是噪声。静态融合机制无法处理这种状态依赖性。
切入角度: 引入接触检测→条件性地激活/关闭触觉 token。
核心 idea: 紧凑触觉 token 化（15×8 阵列→36 个 token）+ 接触感知门控（\(c_t\) 二值门控，无接触时触觉 token 归零且从注意力中排除）。

双相机视觉 + 语言指令 + 触觉阵列 → 各自 tokenize → 接触感知门控处理触觉 token → 所有模态 token 拼接进入预训练 VLM backbone → Flow matching action expert 输出动作序列。

紧凑触觉 token 化:
- 15×8 触觉阵列 → 轻量 MLP 编码器 → 36 个触觉 token
- 加 2D 正弦余弦位置编码保持空间结构
- 与 GelSight 等图像式触觉传感器（数百个 token）相比大幅降低计算成本
接触感知门控机制:
- 基于阈值检测接触：\(c_t = 1\) 仅当超过阈值的触觉单元数量超过固定计数
- 无接触时：触觉 token 归零 \(\tilde{\mathbf{z}}_t^{tac} = 0\)，注意力掩码排除触觉
- 有接触时：触觉 token 正常参与全部跨模态注意力
- 固定 token 拓扑不变（不动态增删），简化实现
非因果注意力前缀:
- 视觉+语言+触觉 token 之间可以自由交叉注意
- Action expert 以此融合表征为条件，用 flow matching 预测连续动作序列

方法	Task 1	Task 2	Task 3	Task 4	平均
Pi0.5 (无触觉)	~60%	~40%	~35%	~45%	~45%
简单拼接触觉	~65%	~50%	~40%	~50%	~51%
TacVLA	~80%	~60%	~55%	~65%	~65%

方法	成功率
Pi0.5 (无触觉)	~30%
TacVLA	~90%