Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions¶

会议: CVPR 2026
arXiv: 2604.11579
代码: https://mm.kaist.ac.kr/projects/SeeingThroughTouch/
领域: 多模态VLM
关键词: 触觉定位, 视觉-触觉对齐, 材质分割, 跨模态学习, 数据集

一句话总结¶

提出触觉定位任务——给定触觉输入识别图像中具有相同材质属性的区域，通过局部视觉-触觉对齐和材质多样性配对策略学习密集跨模态特征，构建两个新的触觉-材质分割数据集。

领域现状：视觉-触觉学习主要聚焦于全局对齐（判断图像和触觉是否对应同一材质），但缺乏空间定位能力——无法在视觉场景中找到"摸起来一样"的区域。

现有痛点：(1) 全局对齐方法无法定位材质区域；(2) 现有数据集以近距离特写为主，视觉帧几乎无变化且单一材质填满画面，缺乏场景级多材质图像；(3) 缺少触觉-材质分割的评估基准。

核心矛盾：触觉定位需要细粒度的局部跨模态对应，但现有方法和数据都只提供粗粒度的全局对齐。

核心 idea：学习局部视觉-触觉对齐产生触觉显著性图，并通过材质多样性配对扩展有效训练对。

触觉编码器提取触觉特征（全局池化） + 视觉编码器提取空间特征图 → 计算密集相似度图 \(M[h,w] = \bar{f}_t \cdot f_v[h,w]\) → 最大池化得到相似度分数用于对比学习 → 推理时直接用相似度图做触觉定位。

局部视觉-触觉对齐:
- 功能：学习空间分辨的跨模态特征
- 核心思路：将触觉特征全局池化为 1D 向量，与视觉特征图的每个空间位置做点积得到相似度图，最大池化后用于对比学习。DINOv3 作为双编码器骨干，冻结视觉骨干仅训练对齐器
- 设计动机：最大池化使模型关注图像中最匹配的区域，而非所有区域的平均响应，自然适合定位任务
材质多样性配对策略:
- 功能：扩展有效训练对，增强跨实例泛化
- 核心思路：域内配对——同一材质类别的不同触觉实例和不同视觉帧可以跨实例组合为正样本对；域外配对——收集网络场景图像并基于材质类别匹配触觉样本，利用"相似材质产生相似触觉"的假设
- 设计动机：Touch-and-Go 中同一实例的视觉帧几乎相同导致有效训练对极少，跨实例和跨域配对大幅增加了多样性
野外图像收集与过滤:
- 功能：补充场景级多材质图像
- 核心思路：用 LLM 为每种材质类别生成多样搜索短语（如"brick chimney in a cozy living room"），从搜索引擎收集图像，用 CLIP 相似度过滤错分类样本，加上 MINC 材质数据集的图像
- 设计动机：TG 数据集图像太近距离且单材质，无法训练场景级定位能力

对称对比学习损失（InfoNCE），冻结视觉骨干训练触觉编码器和两个对齐器模块。