Relational Visual Similarity¶

会议: CVPR 2026
arXiv: 2512.07833
代码: https://thaoshibe.github.io/relsim
领域: 多模态VLM
关键词: 关系相似度, 视觉类比, 匿名描述, 认知科学, 图像检索

一句话总结¶

本文首次形式化定义关系视觉相似度问题（两图像间的内在关系/功能对应，而非表面属性相似），构建114K匿名描述数据集并训练relsim模型，揭示了现有相似度指标（CLIP/DINO等）在捕捉关系相似度方面的根本性缺陷。

领域现状：视觉相似度是计算机视觉的基础能力。现有方法（LPIPS、CLIP、DINO等）专注于属性相似度——像素级、语义级或描述级的匹配。
现有痛点：这些方法无法识别关系相似度——例如，火柴的燃烧阶段与香蕉的成熟阶段具有相同的"时间渐变"逻辑，但它们在属性上完全不同。
核心矛盾：认知科学认为属性相似度和关系相似度是人类感知的两大核心支柱，但视觉计算完全忽略了后者。关系相似度被认为是区分人类与其他物种的关键认知能力。
本文目标：将关系视觉相似度形式化为可测量的问题，并构建能捕捉关系结构的模型。
切入角度：受认知科学启发——人类通过语言或先验知识进行概念抽象来识别关系相似度。因此引入"匿名描述"（描述内在逻辑而非具体对象）作为连接关系相似图像的纽带。
核心idea：定义匿名描述（如"时间推移下{主体}的变化"），训练模型生成匿名描述，再用这些描述将具有相同关系逻辑的图像拉近。

三步pipeline：（1）从LAION-2B过滤114K可能包含可迁移关系结构的图像；（2）训练匿名描述生成模型为每张图像生成匿名描述；（3）在{图像, 匿名描述}对上训练relsim模型，优化将描述编码相似关系抽象的图像拉近。

数据过滤与策展:
- 功能：从大规模图像语料中提取包含可迁移关系结构的图像
- 核心思路：从LAION-2B中过滤低质量、错误标注和关系无信息的图像，保留可能包含时间序列、结构类比、功能对应等关系模式的图像。
- 设计动机：LAION-2B中大量图像是关系无关的（如产品照片、自拍等），直接使用会引入噪声。
匿名描述模型:
- 功能：为图像生成描述内在关系逻辑而非具体内容的文本
- 核心思路：训练一个专门的描述模型，输入图像输出匿名描述——这些描述不涉及任何具体可见对象，而是捕捉图像传达的关系逻辑。例如，对一张火柴燃烧图片的匿名描述是"transformation of {subject} over time"而非"burning matchsticks"。
- 设计动机：匿名描述作为"胶水"连接具有相似内在逻辑的图像。这是将认知科学关于关系相似度需要概念抽象的洞察操作化的关键步骤。
relsim关系相似度模型:
- 功能：学习将具有相同关系结构的图像在表示空间中拉近
- 核心思路：在{图像, 匿名描述}数据集上微调视觉-语言模型，优化目标使得匿名描述编码相似关系抽象的图像特征更接近。
- 设计动机：标准的视觉-语言对比学习（如CLIP）优化的是图像与其具体描述的匹配，自然偏向属性相似度。通过替换为匿名描述，将优化目标从属性对齐转向关系对齐。

标准的视觉-语言对比学习损失，但使用匿名描述替代常规描述。

模型	属性相似度	关系相似度	说明
CLIP	高	低	仅捕捉属性
DINO	高	低	仅捕捉属性
LPIPS	高	极低	像素级
relsim	中高	高	关系感知