V-CLR: View-Consistent Learning for Open-World Instance Segmentation¶
会议: CVPR 2025
arXiv: 2504.01383
代码: https://visual-ai.github.io/vclr
领域: 分割
关键词: 开放世界实例分割, 外观不变表示, 视图一致性, 纹理偏差, 跨类别泛化
一句话总结¶
v-CLR 提出视图一致性学习框架,通过将自然图像变换为深度图/风格化图等外观不变视图,并在 DETR 架构中强制跨视图 query 特征一致 + 利用无监督物体 proposal 引导匹配方向,有效克服了检测网络的纹理偏差问题,在多个开放世界分割基准上达到 SOTA。
研究背景与动机¶
领域现状:开放世界实例分割要求模型在已知类别上训练后,能在推理时发现和分割未知类别的物体。现有方法主要包括:OLN 用定位感知分数替代分类分支、LDET 通过合成训练图像、SWORD 将 DETR 架构应用于开放世界等。
现有痛点:大量研究表明,视觉神经网络天然偏向学习外观信息(特别是纹理)来识别物体。这种隐式偏差导致模型在开放世界中遇到具有未见纹理的新物体时会失败。例如用红色金属物体训练的检测器,对其他颜色和材质的物体检出率显著下降。
核心矛盾:训练数据中的纹理/外观与物体身份绑定在一起,模型将纹理作为"捷径特征",而非学习真正的物体结构特征。这导致已知类→未知类的泛化能力严重受限。
本文目标:让模型学到外观不变但物体相关的表示,使其能泛化到具有任意纹理/外观的未知类别物体。
切入角度:作者通过 CLEVR 数据集的 toy experiment 验证了假设——当加入深度图作为辅助输入时,模型对新颜色/新材质物体的检出率大幅提升。这说明引入外观不变信息确实能显著改善泛化。
核心 idea:将图像变换为多种外观不变视图(深度图、风格化图、边缘图),在 DETR 框架中通过跨视图 query 特征一致性损失强制模型学习外观不变表示,同时用无监督 object proposal 确保一致性优化方向指向真正的物体。
方法详解¶
整体框架¶
v-CLR 由两个分支组成:自然图像分支(EMA teacher)始终接收原始图像,变换图像分支(student)随机接收原始图像或深度图/风格化图等变换视图。两个分支各自通过 DETR 变体产生 query 预测。通过 CutLER 预训练的 object proposal 将两个分支的 query 与真实物体对应起来后,强制匹配 query 对的特征相似。同时用 ground truth 标签训练 student 分支的检测损失。
关键设计¶
-
外观不变视图变换 (Appearance-Invariant Transformation):
- 功能:将自然图像转换为破坏外观但保留结构的多种视图
- 核心思路:使用三种视图——自然图像、彩色深度图(MiDaS 估计后上色)、辅助视图(艺术风格化或边缘图)。训练时对每个样本等概率随机选择一种视图。此外还对图像做随机裁剪 patch 再 paste 回原图,进一步打破外观一致性
- 设计动机:深度图保留了物体的 3D 几何结构但完全重写了纹理/颜色信息,是最理想的外观不变变换。多种变换的随机组合增加了训练多样性并防止模型依赖任何单一域的特征
-
基于 Object Proposal 的跨视图特征匹配 (Object Feature Matching):
- 功能:确保两个分支输出的 query 特征在对应同一物体时保持一致
- 核心思路:使用 CutLER 预训练的 Cascade-Mask-RCNN 生成物体 proposal \(\mathcal{P}_o\)。通过匈牙利匹配将两个分支的预测 \(\mathcal{P}_1, \mathcal{P}_2\) 分别与 proposal 配对,形成 query 三元组。然后计算匹配 query 对的余弦相似度损失 \(L_{sim} = \frac{1}{\tilde{N}} \sum (1 - \cos(q_1, q_2))\),同时用 proposal 的 mask/box 监督 student 分支的检测输出 \(L_{obj}\)
- 设计动机:直接强制所有 query 对一致可能导致"捷径解"——模型在不关注物体的情况下也能提取相似特征。object proposal 作为"物体锚点"确保一致性优化方向指向真实物体,使学到的不变表示是物体相关的
-
EMA Teacher-Student 架构:
- 功能:防止两个分支的特征塌缩
- 核心思路:自然图像分支的 Transformer 参数通过变换图像分支参数的 EMA 更新,不直接接受梯度。这遵循自监督学习(BYOL、DINO 等)中成熟的防塌缩策略
- 设计动机:如果两个分支都用一套参数或都梯度更新,特征会快速退化到平凡解。EMA 提供稳定的 teacher 信号,保证学习过程的稳定性
损失函数 / 训练策略¶
- 总损失 \(L = \lambda_{match} L_{match} + \lambda_{gt} L_{gt}\)
- 匹配损失 \(L_{match} = \lambda_{obj} L_{obj} + \lambda_{sim} L_{sim}\),其中 \(L_{obj}\) 包含 dice loss、mask loss、score loss、box loss、giou loss
- GT 损失 \(L_{gt}\) 使用 ground truth 标签计算与 \(L_{obj}\) 相同形式的检测/分割损失
- 训练 8 epochs,lr 在第 7 epoch 衰减,DINO-DETR + ResNet-50 backbone,decoder 用 1000/1500 queries
实验关键数据¶
主实验¶
| 设置 | 指标 | v-CLR (DINO) | SWORD | 提升 |
|---|---|---|---|---|
| VOC→Non-VOC | AR100_b | 40.9 | 35.3 | +5.6 |
| VOC→Non-VOC | AR100_m | 34.1 | 30.2 | +3.9 |
| VOC→UVO | AR100_b | 47.2 | 43.1 | +4.1 |
| VOC→UVO | AR100_m | 35.9 | 34.9 | +1.0 |
| COCO→LVIS | AR100_b | 28.4 | 23.5 | +4.9 |
| COCO→LVIS | AR100_m | 23.6 | 20.4 | +3.2 |
| COCO→Objects365 | AR100_b | 48.9 | - | - |
消融实验¶
| 配置 | AR100_b (VOC→Non-VOC) | 说明 |
|---|---|---|
| v-CLR (DINO) | 40.9 | 完整模型 |
| w/o L_sim | ~36 | 去掉跨视图一致性,效果大幅下降 |
| w/o object proposals | ~35 | 无 proposal 引导,一致性退化 |
| w/o depth view | ~38 | 只用风格化变换,不如深度图有效 |
| DINO-DETR baseline | 31.1 | 不做任何开放世界增强 |
关键发现¶
- 深度图是最有效的外观不变变换,因为它完全破坏了纹理同时保留了所有几何结构
- Object proposal 对于防止一致性学习塌缩至关重要——没有它,跨视图一致性反而可能让模型学到与物体无关的不变特征
- v-CLR 基于 DINO-DETR 比基于 Deformable-DETR 效果更好,denoising queries 有助于加速训练收敛
- 在所有设置中 AR@10 的提升比 AR@100 的提升更大,说明 v-CLR 特别擅长高置信度的 top-k 物体检测
亮点与洞察¶
- 用 object proposal 引导一致性学习方向非常巧妙——解决了自监督一致性学习中的"捷径解"问题。这个思路可以迁移到任何需要学习不变表示的场景
- 视图变换的思路不局限于域适应:传统多域/风格迁移方法追求同一语义类的跨域一致性,而本文追求同一物体实例的跨外观一致性,这是正交的两个问题。本文明确指出域偏移和语义偏移是不同的挑战
- CLEVR toy experiment 简洁有力地验证了核心假设,是论文叙事结构的亮点
局限与展望¶
- 依赖 CutLER 预训练的 object proposal 网络,如果 proposal 本身有偏差会限制上限
- 深度图质量受 MiDaS 限制,在极端场景(强反射、高度纹理化表面)下深度估计可能不准
- 只验证了 ResNet-50 backbone,更强的 backbone(如 Swin-T、ViT)可能进一步提升
- 改进方向:用 SAM/DINOv2 替代 CutLER 作为 proposal 来源可能获得更好的物体覆盖率;结合 3D 几何的 proposal(如点云聚类)处理室外场景
相关工作与启发¶
- vs SWORD: SWORD 首次将 DETR 应用于开放世界分割,提出 stop-gradient、IoU 分支和 one-to-many 分配。v-CLR 证明跨视图一致性学习比这些技术更根本地解决泛化问题,因为它从表示层面消除纹理偏差
- vs OLN: OLN 将分类分支替换为定位分数,是模型层面的修改。v-CLR 从数据/学习策略层面解决问题,两者正交可组合
- vs 纹理偏差研究 (Geirhos et al., SIN): 以往的纹理-形状偏差研究主要在分类任务上,本文将其系统性地应用于检测/分割的开放世界场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 将外观不变学习与 object-aware 约束结合解决开放世界分割是新颖的
- 实验充分度: ⭐⭐⭐⭐ 4 个设置 5 个数据集,消融完整,CLEVR toy experiment 验证假设
- 写作质量: ⭐⭐⭐⭐ 动机清晰,CLEVR 实验是很好的叙事起点
- 价值: ⭐⭐⭐⭐ 提供了开放世界实例分割的有效新范式,思路可迁移性强
相关论文¶
- [CVPR 2025] ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting
- [CVPR 2026] Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction
- [CVPR 2025] Foveated Instance Segmentation
- [ECCV 2024] SOS: Segment Object System for Open-World Instance Segmentation With Object Priors
- [CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception