跳转至

INSID3: Training-Free In-Context Segmentation with DINOv3

会议: CVPR 2026
arXiv: 2603.28480
代码: GitHub
领域: 分割
关键词: 上下文分割, DINOv3, 无训练, 自监督, 位置偏差校正

一句话总结

提出INSID3,一种仅依赖冻结DINOv3特征的无训练上下文分割方法,通过位置偏差消除、细粒度聚类和种子聚类聚合三阶段pipeline,在语义/部件/个性化分割任务上以单一自监督骨干网络超越了依赖SAM或微调的方法,平均mIoU提升+7.5%。

研究背景与动机

上下文分割(In-Context Segmentation, ICS)旨在给定一个标注示例后分割目标图像中的任意概念(物体、部件、个性化实例)。现有方法分为两类路线:

  1. 微调路线(如SegIC、DiffewS):在VFM上训练分割解码器或微调扩散模型,域内效果好但泛化差
  2. 无训练路线(如Matcher、GF-SAM):组合DINOv2+SAM,泛化能力强但架构复杂、计算开销大

核心矛盾在于:现有方法都依赖某种形式的分割先验(SAM预训练或下游微调),无法真正实现"纯自监督"分割。

DINOv3作为最新的纯自监督VFM,通过大规模数据+模型缩放和Gram anchoring目标函数,产生了具有强空间结构的密集局部特征。本文核心idea:DINOv3的密集自监督特征本身就蕴含语义匹配和分割能力,无需任何解码器、微调或模型组合。

方法详解

整体框架

INSID3由三个概念阶段组成,全部基于冻结DINOv3 Large编码器: 1. 位置偏差消除:去除DINOv3特征中的位置编码偏差 2. 细粒度聚类:对目标图像特征进行层次聚类获取候选区域 3. 种子聚类选择与聚合:通过跨图像相似性定位种子区域,再通过自相似性扩展完整mask

关键设计

  1. 位置偏差消除(Positional Debiasing):

    • 功能:去除DINOv3特征空间中的系统性位置偏差
    • 核心思路:发现DINOv3特征存在位置偏差——不相关图像中相同空间位置的特征会产生虚假匹配。通过向编码器输入噪声图像 \(\mathbf{I}^{noise} \sim \mathcal{N}(0,1)\),提取特征后进行SVD分解,取前s个右奇异向量作为位置子空间基 \(\mathbf{B}\),然后将特征投影到其正交补空间:\(\tilde{\mathbf{F}} = \mathbf{F}(\mathbf{1}_D - \mathbf{B}\mathbf{B}^\top)\)
    • 设计动机:噪声图像缺乏语义内容,因此其特征主要捕捉位置信号,可用来估计位置子空间。去偏特征用于跨图像匹配,原始特征保留用于图像内聚类(位置信息在此有益)
    • 关键超参数:s=500,效果稳定,在SPair-71k语义对应任务上也带来+0.9~6.6 PCK的提升
  2. 细粒度层次聚类(Agglomerative Clustering):

    • 功能:将目标图像分解为语义连贯的区域候选
    • 核心思路:对原始DINOv3目标图像特征 \(\mathbf{F}^t\) 进行凝聚聚类,自底向上逐步合并局部相似的patch特征,生成K个不重叠的空间区域 \(\{\mathcal{G}_1, ..., \mathcal{G}_K\}\)
    • 设计动机:相比K-means需要预定义聚类数(不适合开放世界),DBSCAN在高维空间不可靠,凝聚聚类通过单一阈值τ自然对齐DINOv3的空间平滑性。τ=0.6在部件级和物体级任务间提供合理平衡
  3. 种子聚类选择与聚合(Seed Selection + Aggregation):

    • 功能:从聚类候选中定位并扩展参考概念对应的完整区域
    • 核心思路:分两步执行:
    • 候选定位:通过反向对应(backward correspondence)——对每个目标patch找参考图中最相似patch,仅保留最近邻落在参考mask内的目标patch,由此筛选出候选聚类集合 \(\mathcal{C}_{cand}\)
    • 种子选择:在去偏特征空间中计算每个候选聚类原型与参考区域原型的跨图像相似度 \(s_k^{cross}\),选择最高分的聚类作为种子 \(\mathcal{G}^*\)
    • 聚类聚合:种子通常只覆盖最具区分性的部分。将跨图像相似度与图像内自相似度 \(s_k^{intra}\) 相乘得到综合分数 \(S_k = s_k^{cross} \cdot s_k^{intra}\),合并所有 \(S_k \geq \alpha\) 的聚类
    • 设计动机:反向对应利用参考图中的非标注区域作为隐式负样本,提高了在个性化分割中区分相似干扰实例的能力。乘法组合确保被合并的聚类同时满足语义对齐和结构一致性

损失函数 / 训练策略

INSID3是完全无训练方法,不涉及任何损失函数或训练过程。推理时使用CRF进行mask后处理精炼。输入图像统一resize到1024×1024。

实验关键数据

主实验

数据集 指标 INSID3 之前SOTA (GF-SAM) 提升
LVIS-92i(语义) mIoU 41.8% 35.2% +6.6
COCO-20i(语义) mIoU 57.6% 58.7% -1.1
ISIC(皮肤病变) mIoU 54.4% 48.7% +5.7
Chest X-Ray mIoU 78.8% 51.0% +27.8
iSAID(遥感) mIoU 52.1% 47.1% +5.0
PASCAL-Part(部件) mIoU 50.5% 44.5% +6.0
PACO-Part(部件) mIoU 38.7% 36.3% +2.4
PerMIS(个性化) mIoU 67.0% 54.1% +12.9
9数据集平均 mIoU 55.1% 47.6% +7.5

参数量对比:INSID3仅304M vs GF-SAM 945M(3×更少)

消融实验

配置 COCO mIoU PASCAL-Part mIoU 说明
阈值化相似度图 44.2% 35.4% 无聚类基线
粗聚类(τ=0.5)无聚合 50.6% 31.1% 适合物体级
细聚类(τ=0.6)无聚合 42.8% 36.2% 适合部件级
聚类+跨图像聚合 54.6% 48.5% 仅cross相似度
聚类+跨图像+自相似度聚合 57.6% 50.5% 完整方法

关键发现

  • DINOv3存在系统性的位置偏差:相同空间位置的特征在不相关图像间产生虚假匹配,该偏差可能源自Gram anchoring训练目标
  • 位置去偏在语义对应任务SPair-71k上通用有效,DINOv3-Large上+1.4~2.2 PCK
  • 微调方法SegIC在域内COCO达76.1% mIoU,但跨域大幅下降(如iSAID仅46.1%),而INSID3在所有domain上保持稳定

亮点与洞察

  • 极简主义设计哲学:单一冻结自监督backbone就能完成上下文分割,无需解码器、微调或模型组合
  • 揭示了DINOv3位置偏差问题并给出了简单有效的解决方案(噪声图像SVD),该修正策略可泛化到语义对应等其它任务
  • 反向对应机制巧妙利用参考图像中的未标注区域作为负样本,有效解决个性化分割中的干扰实例问题

局限与展望

  • COCO-20i上仍略低于GF-SAM(57.6% vs 58.7%),在域内数据上自监督特征可能不如SAM的mask先验
  • 依赖DINOv3-Large(需1024×1024输入),计算成本仍然较高
  • 聚类阈值τ和聚合阈值α需要跨任务固定,可能不是所有场景的最优选择
  • 未探索多示例(few-shot)场景的扩展

相关工作与启发

  • vs GF-SAM: GF-SAM将DINOv2匹配点作为prompt输入SAM,丢弃了大部分密集特征信息;INSID3在统一空间内完成匹配和分割
  • vs SegIC: SegIC通过训练分割解码器获得强域内性能,但泛化受限于训练分布
  • vs DINOv2: DINOv2的位置偏差比DINOv3弱得多,可能因为DINOv3的Gram anchoring目标无意中放大了空间相关性

评分

  • 新颖性: ⭐⭐⭐⭐ 首次证明纯自监督VFM可直接用于无训练上下文分割,位置偏差发现和修正很有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 9个数据集覆盖语义/部件/个性化分割,消融全面,还泛化验证了语义对应任务
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法简洁,图表直观,论证链完整
  • 价值: ⭐⭐⭐⭐ 对VFM特征理解和上下文分割领域都有重要启发,极简设计理念值得推广

相关论文