Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation¶
会议: CVPR 2026
arXiv: 2604.07723
代码: GitHub
领域: Segmentation / Open-Vocabulary
关键词: 开放词汇语义分割, 免训练, 分布差异, 最优传输, 马尔可夫过程
一句话总结¶
提出一种跳过logits优化过程的开放词汇语义分割方法,基于"同类区域的logits到退化分布的分布差异一致"这一假设,直接通过最优传输路径或最大传输速度的解析解来构造分割图,在8个基准上达到SOTA且无需训练或模型特定调制。
研究背景与动机¶
开放词汇语义分割(OVSS)需要像素级的视觉-语言对齐能力。现有方法的核心范式可归纳为logits优化——计算视觉与语言特征的余弦相似度(logits),最小化logits分布与GT分布的差异以获得最优logits,再取argmax得到分割图。这一范式有两种实现方式:
迭代训练范式:需要GT标注和耗时的训练过程
注意力调制范式(免训练):校准自注意力计算来纠正细粒度对齐,但其去噪操作是数据无关但模型特定的(如CLIP特定的注意力替换),泛化性差
这两种方式都优先推导最优logits、然后构造分割图。作者的核心洞察是:能否完全跳过logits优化,直接从分布差异本身获得分割图?
关键假设:同类区域(homogeneous regions)呈现一致的分布差异,异类区域(heterogeneous regions)呈现不同的分布差异。如果这个假设成立,分布差异本身就编码了语义信息,无需先优化出最优logits。
方法详解¶
整体框架¶
- 用CLIP计算视觉-语言特征的余弦相似度得到logits
- 对logits进行非极大值抑制(NMS)和归一化
- 计算归一化logits到退化分布(均匀分布 \(\frac{1}{N}\mathbf{1}_N\))的分布差异
- 通过联合双边上采样(JBU)恢复到原始分辨率
- 取argmax得到最终分割图
将优化公式 \(\mathcal{Q}^* = \arg\min_\mathcal{Q} \mathbf{D}(\mathcal{P}\|\mathcal{Q})\) 重新表述为解析解 \(\mathbf{M} = \arg\max_{N_c} \mathbf{D}(\mathcal{S}\|\mathcal{Q})\),其中 \(\mathcal{S}\) 为替代GT的退化分布。
关键设计¶
-
退化分布替代GT分布(§3.3):
- 推理时GT分布不可用,需要替代。作者提出用退化分布(均匀分布)作为替代
- 实验验证:KL散度从logits到GT(\(\mathbf{D}(\mathcal{P}\|\mathcal{Q})\))和从logits到退化分布(\(\mathbf{D}(\mathcal{S}\|\mathcal{Q})\))在5个数据集上的性能高度一致
- 可视化显示\(\mathcal{S}\)和\(\mathcal{P}\)在特征空间中占据对跖位置——logits优化向GT端点走,本方法计算到退化端点的差异
- 设计动机:退化分布是推理时唯一无需额外信息就能确定的分布
-
最优传输路径(Optimal Path, §3.4):
- 直觉:同类区域的退化路径应一致,因此路径本身可量化差异
- 将问题形式化为Sinkhorn最优传输: \(\boldsymbol{\pi}^* = \min_{\boldsymbol{\pi}} \sum_{i,j} \mathbf{C}_{i,j}\boldsymbol{\pi}_{i,j} - \epsilon\sum_{i,j}\boldsymbol{\pi}_{i,j}(\ln\boldsymbol{\pi}_{i,j} - 1)\)
- 代价矩阵 \(\mathbf{C}\) 使用Stable Diffusion v2的层级平均自注意力张量
- 通过Lagrange乘子法得到解析解:\(\boldsymbol{\pi}^* = \text{diag}(\boldsymbol{\mu})\mathbf{K}\text{diag}(\boldsymbol{\nu})\),其中Gibbs核 \(\mathbf{K} = \exp(-\mathbf{C}/\epsilon)\)
- 用Sinkhorn迭代更新 \(\boldsymbol{\mu}\) 和 \(\boldsymbol{\nu}\)(50次迭代,\(\epsilon=0.1\))
-
最大传输速度(Maximum Velocity, §3.5):
- 直觉:传输速度也能量化差异——路径相同时,速度越慢意味着差异越大
- 将logits收敛到静止分布的过程建模为马尔可夫过程:\(\mathbf{f}^{c(l)} = \mathbf{f}^{c(0)} \cdot \mathbf{T}^l\)
- 转移矩阵 \(\mathbf{T}\) 通过迭代比例拟合(IPF, 15次迭代)将自注意力张量转化为双随机矩阵
- 每个patch的最大传输速度定义为收敛步数的倒数:\(\mathbf{v}_i^c = \max\{1/l : |\mathbf{f}_i^{c(l)} - \mathbf{f}_i^{c(l-1)}| \leq \tau\}\)
- \(\tau=0.3\) 为收敛阈值
-
自注意力张量来源:
- 使用Stable Diffusion v2的自注意力而非CLIP的自注意力
- 无噪声潜在特征直接编码,单步无条件去噪提取自注意力
- 组合 \(\text{up}_0\) 和 \(\text{up}_1\) 块的张量效果最佳
损失函数 / 训练策略¶
完全免训练方法。不涉及任何训练或微调过程。使用现成的CLIP(ViT-B/16 或 ViT-L/14)和Stable Diffusion v2权重。16位浮点精度推理,整图推理无需滑动窗口。
实验关键数据¶
主实验¶
CLIP ViT-B/16 骨干:
| 方法 | 范式 | VOC21 | Context60 | COCO-Stuff | Cityscapes | ADE20K | Avg |
|---|---|---|---|---|---|---|---|
| SCLIP | M.M. | 59.1 | 30.4 | 22.4 | 32.2 | 16.1 | 38.2 |
| NACLIP | M.M. | 58.9 | 32.2 | 23.3 | 35.5 | 17.4 | 39.4 |
| CASS | M.M. | 65.8 | 36.7 | 26.7 | 39.4 | 20.4 | 44.4 |
| Ours (O.P.) | - | 66.9 | 37.6 | 28.6 | 41.7 | 22.8 | 46.2 |
| Ours (M.V.) | - | 67.8 | 38.3 | 28.9 | 43.3 | 23.0 | 46.9 |
CLIP ViT-L/14 骨干:
| 方法 | VOC21 | Context60 | COCO-Stuff | Cityscapes | ADE20K | Avg |
|---|---|---|---|---|---|---|
| SC-CLIP | 65.0 | 36.9 | 26.9 | 41.3 | 21.7 | 45.2 |
| Ours (M.V.) | 68.9 | 38.7 | 29.2 | 43.9 | 23.4 | 47.8 |
消融实验¶
| 配置 | VOC21 | COCO-Stuff | Cityscapes | ADE20K | Avg |
|---|---|---|---|---|---|
| (I) Baseline (raw logits) | 18.6 | 7.2 | 6.7 | 3.2 | 8.9 |
| (II) +KL散度 | 44.2 | 12.1 | 8.6 | 6.4 | 17.8 |
| (III) +NMS | 45.9 | 13.0 | 9.6 | 7.7 | 19.1 |
| (IV) +JBU | 46.3 | 13.3 | 10.1 | 8.8 | 19.6 |
| (V) +最优传输路径 | 66.9 | 28.6 | 41.7 | 22.8 | 40.0 |
| (VI) +最大传输速度 | 67.8 | 28.9 | 43.3 | 23.0 | 40.8 |
| (VII) 融合(V)+(VI) | 64.9 | 26.8 | 41.4 | 20.5 | 38.4 |
关键发现¶
- 分布差异可替代logits优化:简单KL散度就带来+8.9% mIoU提升,最优传输/马尔可夫进一步+22%
- 最大速度模式略优于最优路径:B/16平均+0.7%,L/14平均+0.6%
- 融合两个模式反而降低性能:两种差异度量关注不同方面(高频纹理 vs 类间边界),简单融合引入干扰
- SD2的自注意力优于ViT基础模型:SD2的自注意力张量对构建转移矩阵更有效
- 去噪步数越少越好:编码过程避免注入噪声,确保确定性特征提取
- \(\tau=0.3\) 是最优阈值:更高阈值导致过早退化,logits分布未达到最优退化状态
亮点与洞察¶
- 范式转换:从"优化logits再构建分割图"转向"直接从分布差异获得分割图",消除了训练和模型特定调制的需求
- 理论优雅:将分割问题与最优传输和马尔可夫过程联系,赋予了几何和概率的双重解释
- 退化分布替代GT:巧妙利用GT和退化分布在特征空间中的对跖关系,使推理时不需要GT
- 三重自由:不需要GT标注、不需要耗时训练、不需要模型特定调制
- 最优路径 vs 最大速度的互补性:前者对高频纹理敏感,后者对类间边界敏感
- Stable Diffusion作为特征提取器:SD2的自注意力张量比CLIP/DINO的自注意力更适合构建patch间转移概率
局限与展望¶
- 依赖Stable Diffusion:需要额外加载SD2模型用于自注意力提取,增加了推理时的内存和计算开销
- Sinkhorn迭代的计算代价:50次迭代的最优传输计算在大分辨率图像上可能较慢
- 阈值\(\tau\)和正则化\(\epsilon\)需要手动调整:虽然实验表明对这些超参数相对鲁棒,但仍需经验设置
- 融合两种模式未能叠加收益:这固然是一个有趣发现,但也意味着错失了可能的性能上限
- 仅在语义分割上验证:全景分割、实例分割等更复杂任务的适用性未探索
- 退化分布替代GT的理论保证有限:实验验证了可行性但缺乏严格的理论分析
相关工作与启发¶
- 与ClearCLIP、SCLIP、NACLIP等自注意力替换方法形成对比——它们仍在"logits优化"范式内
- ProxyCLIP、CASS等VFM代理方法引入DINO特征,本方法则创新性地引入SD2自注意力
- 最优传输在分割中的应用(Sinkhorn算法)为分布差异的度量提供了几何视角
- 马尔可夫过程的收敛速度作为语义度量是一个新颖的思路
- 方法的模型无关性(不绑定特定CLIP架构)使其有潜力泛化到未来的视觉-语言模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 跳过logits优化的范式思路独特且有说服力
- 实验充分度: ⭐⭐⭐⭐⭐ — 8个基准、两种CLIP规模、详细消融和分析
- 写作质量: ⭐⭐⭐⭐ — 数学推导清晰,但部分符号较密集
- 价值: ⭐⭐⭐⭐⭐ — 免训练OVSS新SOTA,方法简洁且思路可推广
相关论文¶
- [CVPR 2026] PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation
- [CVPR 2026] Looking Beyond the Window: Global-Local Aligned CLIP for Training-free Open-Vocabulary Semantic Segmentation
- [ICCV 2025] Training-Free Class Purification for Open-Vocabulary Semantic Segmentation
- [CVPR 2026] INSID3: Training-Free In-Context Segmentation with DINOv3
- [CVPR 2026] GeoGuide: Hierarchical Geometric Guidance for Open-Vocabulary 3D Semantic Segmentation