跳转至

Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation

会议: CVPR 2026
arXiv: 2604.07723
代码: GitHub
领域: Segmentation / Open-Vocabulary
关键词: 开放词汇语义分割, 免训练, 分布差异, 最优传输, 马尔可夫过程

一句话总结

提出一种跳过logits优化过程的开放词汇语义分割方法,基于"同类区域的logits到退化分布的分布差异一致"这一假设,直接通过最优传输路径或最大传输速度的解析解来构造分割图,在8个基准上达到SOTA且无需训练或模型特定调制。

研究背景与动机

开放词汇语义分割(OVSS)需要像素级的视觉-语言对齐能力。现有方法的核心范式可归纳为logits优化——计算视觉与语言特征的余弦相似度(logits),最小化logits分布与GT分布的差异以获得最优logits,再取argmax得到分割图。这一范式有两种实现方式:

迭代训练范式:需要GT标注和耗时的训练过程

注意力调制范式(免训练):校准自注意力计算来纠正细粒度对齐,但其去噪操作是数据无关但模型特定的(如CLIP特定的注意力替换),泛化性差

这两种方式都优先推导最优logits、然后构造分割图。作者的核心洞察是:能否完全跳过logits优化,直接从分布差异本身获得分割图?

关键假设:同类区域(homogeneous regions)呈现一致的分布差异,异类区域(heterogeneous regions)呈现不同的分布差异。如果这个假设成立,分布差异本身就编码了语义信息,无需先优化出最优logits。

方法详解

整体框架

  1. 用CLIP计算视觉-语言特征的余弦相似度得到logits
  2. 对logits进行非极大值抑制(NMS)和归一化
  3. 计算归一化logits到退化分布(均匀分布 \(\frac{1}{N}\mathbf{1}_N\))的分布差异
  4. 通过联合双边上采样(JBU)恢复到原始分辨率
  5. 取argmax得到最终分割图

将优化公式 \(\mathcal{Q}^* = \arg\min_\mathcal{Q} \mathbf{D}(\mathcal{P}\|\mathcal{Q})\) 重新表述为解析解 \(\mathbf{M} = \arg\max_{N_c} \mathbf{D}(\mathcal{S}\|\mathcal{Q})\),其中 \(\mathcal{S}\) 为替代GT的退化分布。

关键设计

  1. 退化分布替代GT分布(§3.3)

    • 推理时GT分布不可用,需要替代。作者提出用退化分布(均匀分布)作为替代
    • 实验验证:KL散度从logits到GT(\(\mathbf{D}(\mathcal{P}\|\mathcal{Q})\))和从logits到退化分布(\(\mathbf{D}(\mathcal{S}\|\mathcal{Q})\))在5个数据集上的性能高度一致
    • 可视化显示\(\mathcal{S}\)\(\mathcal{P}\)在特征空间中占据对跖位置——logits优化向GT端点走,本方法计算到退化端点的差异
    • 设计动机:退化分布是推理时唯一无需额外信息就能确定的分布
  2. 最优传输路径(Optimal Path, §3.4)

    • 直觉:同类区域的退化路径应一致,因此路径本身可量化差异
    • 将问题形式化为Sinkhorn最优传输: \(\boldsymbol{\pi}^* = \min_{\boldsymbol{\pi}} \sum_{i,j} \mathbf{C}_{i,j}\boldsymbol{\pi}_{i,j} - \epsilon\sum_{i,j}\boldsymbol{\pi}_{i,j}(\ln\boldsymbol{\pi}_{i,j} - 1)\)
    • 代价矩阵 \(\mathbf{C}\) 使用Stable Diffusion v2的层级平均自注意力张量
    • 通过Lagrange乘子法得到解析解:\(\boldsymbol{\pi}^* = \text{diag}(\boldsymbol{\mu})\mathbf{K}\text{diag}(\boldsymbol{\nu})\),其中Gibbs核 \(\mathbf{K} = \exp(-\mathbf{C}/\epsilon)\)
    • 用Sinkhorn迭代更新 \(\boldsymbol{\mu}\)\(\boldsymbol{\nu}\)(50次迭代,\(\epsilon=0.1\)
  3. 最大传输速度(Maximum Velocity, §3.5)

    • 直觉:传输速度也能量化差异——路径相同时,速度越慢意味着差异越大
    • 将logits收敛到静止分布的过程建模为马尔可夫过程:\(\mathbf{f}^{c(l)} = \mathbf{f}^{c(0)} \cdot \mathbf{T}^l\)
    • 转移矩阵 \(\mathbf{T}\) 通过迭代比例拟合(IPF, 15次迭代)将自注意力张量转化为双随机矩阵
    • 每个patch的最大传输速度定义为收敛步数的倒数:\(\mathbf{v}_i^c = \max\{1/l : |\mathbf{f}_i^{c(l)} - \mathbf{f}_i^{c(l-1)}| \leq \tau\}\)
    • \(\tau=0.3\) 为收敛阈值
  4. 自注意力张量来源

    • 使用Stable Diffusion v2的自注意力而非CLIP的自注意力
    • 无噪声潜在特征直接编码,单步无条件去噪提取自注意力
    • 组合 \(\text{up}_0\)\(\text{up}_1\) 块的张量效果最佳

损失函数 / 训练策略

完全免训练方法。不涉及任何训练或微调过程。使用现成的CLIP(ViT-B/16 或 ViT-L/14)和Stable Diffusion v2权重。16位浮点精度推理,整图推理无需滑动窗口。

实验关键数据

主实验

CLIP ViT-B/16 骨干:

方法 范式 VOC21 Context60 COCO-Stuff Cityscapes ADE20K Avg
SCLIP M.M. 59.1 30.4 22.4 32.2 16.1 38.2
NACLIP M.M. 58.9 32.2 23.3 35.5 17.4 39.4
CASS M.M. 65.8 36.7 26.7 39.4 20.4 44.4
Ours (O.P.) - 66.9 37.6 28.6 41.7 22.8 46.2
Ours (M.V.) - 67.8 38.3 28.9 43.3 23.0 46.9

CLIP ViT-L/14 骨干:

方法 VOC21 Context60 COCO-Stuff Cityscapes ADE20K Avg
SC-CLIP 65.0 36.9 26.9 41.3 21.7 45.2
Ours (M.V.) 68.9 38.7 29.2 43.9 23.4 47.8

消融实验

配置 VOC21 COCO-Stuff Cityscapes ADE20K Avg
(I) Baseline (raw logits) 18.6 7.2 6.7 3.2 8.9
(II) +KL散度 44.2 12.1 8.6 6.4 17.8
(III) +NMS 45.9 13.0 9.6 7.7 19.1
(IV) +JBU 46.3 13.3 10.1 8.8 19.6
(V) +最优传输路径 66.9 28.6 41.7 22.8 40.0
(VI) +最大传输速度 67.8 28.9 43.3 23.0 40.8
(VII) 融合(V)+(VI) 64.9 26.8 41.4 20.5 38.4

关键发现

  1. 分布差异可替代logits优化:简单KL散度就带来+8.9% mIoU提升,最优传输/马尔可夫进一步+22%
  2. 最大速度模式略优于最优路径:B/16平均+0.7%,L/14平均+0.6%
  3. 融合两个模式反而降低性能:两种差异度量关注不同方面(高频纹理 vs 类间边界),简单融合引入干扰
  4. SD2的自注意力优于ViT基础模型:SD2的自注意力张量对构建转移矩阵更有效
  5. 去噪步数越少越好:编码过程避免注入噪声,确保确定性特征提取
  6. \(\tau=0.3\) 是最优阈值:更高阈值导致过早退化,logits分布未达到最优退化状态

亮点与洞察

  • 范式转换:从"优化logits再构建分割图"转向"直接从分布差异获得分割图",消除了训练和模型特定调制的需求
  • 理论优雅:将分割问题与最优传输和马尔可夫过程联系,赋予了几何和概率的双重解释
  • 退化分布替代GT:巧妙利用GT和退化分布在特征空间中的对跖关系,使推理时不需要GT
  • 三重自由:不需要GT标注、不需要耗时训练、不需要模型特定调制
  • 最优路径 vs 最大速度的互补性:前者对高频纹理敏感,后者对类间边界敏感
  • Stable Diffusion作为特征提取器:SD2的自注意力张量比CLIP/DINO的自注意力更适合构建patch间转移概率

局限与展望

  1. 依赖Stable Diffusion:需要额外加载SD2模型用于自注意力提取,增加了推理时的内存和计算开销
  2. Sinkhorn迭代的计算代价:50次迭代的最优传输计算在大分辨率图像上可能较慢
  3. 阈值\(\tau\)和正则化\(\epsilon\)需要手动调整:虽然实验表明对这些超参数相对鲁棒,但仍需经验设置
  4. 融合两种模式未能叠加收益:这固然是一个有趣发现,但也意味着错失了可能的性能上限
  5. 仅在语义分割上验证:全景分割、实例分割等更复杂任务的适用性未探索
  6. 退化分布替代GT的理论保证有限:实验验证了可行性但缺乏严格的理论分析

相关工作与启发

  • 与ClearCLIP、SCLIP、NACLIP等自注意力替换方法形成对比——它们仍在"logits优化"范式内
  • ProxyCLIP、CASS等VFM代理方法引入DINO特征,本方法则创新性地引入SD2自注意力
  • 最优传输在分割中的应用(Sinkhorn算法)为分布差异的度量提供了几何视角
  • 马尔可夫过程的收敛速度作为语义度量是一个新颖的思路
  • 方法的模型无关性(不绑定特定CLIP架构)使其有潜力泛化到未来的视觉-语言模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 跳过logits优化的范式思路独特且有说服力
  • 实验充分度: ⭐⭐⭐⭐⭐ — 8个基准、两种CLIP规模、详细消融和分析
  • 写作质量: ⭐⭐⭐⭐ — 数学推导清晰,但部分符号较密集
  • 价值: ⭐⭐⭐⭐⭐ — 免训练OVSS新SOTA,方法简洁且思路可推广

相关论文