Direct Segmentation without Logits Optimization for Training-Free Open-Vocabulary Semantic Segmentation¶

会议: CVPR 2026
arXiv: 2604.07723
代码: GitHub
领域: Segmentation / Open-Vocabulary
关键词: 开放词汇语义分割, 免训练, 分布差异, 最优传输, 马尔可夫过程

一句话总结¶

提出一种跳过logits优化过程的开放词汇语义分割方法，基于"同类区域的logits到退化分布的分布差异一致"这一假设，直接通过最优传输路径或最大传输速度的解析解来构造分割图，在8个基准上达到SOTA且无需训练或模型特定调制。

研究背景与动机¶

开放词汇语义分割（OVSS）需要像素级的视觉-语言对齐能力。现有方法的核心范式可归纳为logits优化——计算视觉与语言特征的余弦相似度（logits），最小化logits分布与GT分布的差异以获得最优logits，再取argmax得到分割图。这一范式有两种实现方式：

迭代训练范式：需要GT标注和耗时的训练过程

注意力调制范式（免训练）：校准自注意力计算来纠正细粒度对齐，但其去噪操作是数据无关但模型特定的（如CLIP特定的注意力替换），泛化性差

这两种方式都优先推导最优logits、然后构造分割图。作者的核心洞察是：能否完全跳过logits优化，直接从分布差异本身获得分割图？

关键假设：同类区域（homogeneous regions）呈现一致的分布差异，异类区域（heterogeneous regions）呈现不同的分布差异。如果这个假设成立，分布差异本身就编码了语义信息，无需先优化出最优logits。

方法详解¶

整体框架¶

用CLIP计算视觉-语言特征的余弦相似度得到logits
对logits进行非极大值抑制（NMS）和归一化
计算归一化logits到退化分布（均匀分布 \(\frac{1}{N}\mathbf{1}_N\)）的分布差异
通过联合双边上采样（JBU）恢复到原始分辨率
取argmax得到最终分割图

将优化公式 \(\mathcal{Q}^* = \arg\min_\mathcal{Q} \mathbf{D}(\mathcal{P}\|\mathcal{Q})\) 重新表述为解析解 \(\mathbf{M} = \arg\max_{N_c} \mathbf{D}(\mathcal{S}\|\mathcal{Q})\)，其中 \(\mathcal{S}\) 为替代GT的退化分布。

关键设计¶

退化分布替代GT分布（§3.3）：
- 推理时GT分布不可用，需要替代。作者提出用退化分布（均匀分布）作为替代
- 实验验证：KL散度从logits到GT（\(\mathbf{D}(\mathcal{P}\|\mathcal{Q})\)）和从logits到退化分布（\(\mathbf{D}(\mathcal{S}\|\mathcal{Q})\)）在5个数据集上的性能高度一致
- 可视化显示\(\mathcal{S}\)和\(\mathcal{P}\)在特征空间中占据对跖位置——logits优化向GT端点走，本方法计算到退化端点的差异
- 设计动机：退化分布是推理时唯一无需额外信息就能确定的分布
最优传输路径（Optimal Path, §3.4）：
- 直觉：同类区域的退化路径应一致，因此路径本身可量化差异
- 将问题形式化为Sinkhorn最优传输： \(\boldsymbol{\pi}^* = \min_{\boldsymbol{\pi}} \sum_{i,j} \mathbf{C}_{i,j}\boldsymbol{\pi}_{i,j} - \epsilon\sum_{i,j}\boldsymbol{\pi}_{i,j}(\ln\boldsymbol{\pi}_{i,j} - 1)\)
- 代价矩阵 \(\mathbf{C}\) 使用Stable Diffusion v2的层级平均自注意力张量
- 通过Lagrange乘子法得到解析解：\(\boldsymbol{\pi}^* = \text{diag}(\boldsymbol{\mu})\mathbf{K}\text{diag}(\boldsymbol{\nu})\)，其中Gibbs核 \(\mathbf{K} = \exp(-\mathbf{C}/\epsilon)\)
- 用Sinkhorn迭代更新 \(\boldsymbol{\mu}\) 和 \(\boldsymbol{\nu}\)（50次迭代，\(\epsilon=0.1\)）
最大传输速度（Maximum Velocity, §3.5）：
- 直觉：传输速度也能量化差异——路径相同时，速度越慢意味着差异越大
- 将logits收敛到静止分布的过程建模为马尔可夫过程：\(\mathbf{f}^{c(l)} = \mathbf{f}^{c(0)} \cdot \mathbf{T}^l\)
- 转移矩阵 \(\mathbf{T}\) 通过迭代比例拟合（IPF, 15次迭代）将自注意力张量转化为双随机矩阵
- 每个patch的最大传输速度定义为收敛步数的倒数：\(\mathbf{v}_i^c = \max\{1/l : |\mathbf{f}_i^{c(l)} - \mathbf{f}_i^{c(l-1)}| \leq \tau\}\)
- \(\tau=0.3\) 为收敛阈值
自注意力张量来源：
- 使用Stable Diffusion v2的自注意力而非CLIP的自注意力
- 无噪声潜在特征直接编码，单步无条件去噪提取自注意力
- 组合 \(\text{up}_0\) 和 \(\text{up}_1\) 块的张量效果最佳

损失函数 / 训练策略¶

完全免训练方法。不涉及任何训练或微调过程。使用现成的CLIP（ViT-B/16 或 ViT-L/14）和Stable Diffusion v2权重。16位浮点精度推理，整图推理无需滑动窗口。

实验关键数据¶

主实验¶

CLIP ViT-B/16 骨干：

方法	范式	VOC21	Context60	COCO-Stuff	Cityscapes	ADE20K	Avg
SCLIP	M.M.	59.1	30.4	22.4	32.2	16.1	38.2
NACLIP	M.M.	58.9	32.2	23.3	35.5	17.4	39.4
CASS	M.M.	65.8	36.7	26.7	39.4	20.4	44.4
Ours (O.P.)	-	66.9	37.6	28.6	41.7	22.8	46.2
Ours (M.V.)	-	67.8	38.3	28.9	43.3	23.0	46.9

CLIP ViT-L/14 骨干：

方法	VOC21	Context60	COCO-Stuff	Cityscapes	ADE20K	Avg
SC-CLIP	65.0	36.9	26.9	41.3	21.7	45.2
Ours (M.V.)	68.9	38.7	29.2	43.9	23.4	47.8

消融实验¶

配置	VOC21	COCO-Stuff	Cityscapes	ADE20K	Avg
(I) Baseline (raw logits)	18.6	7.2	6.7	3.2	8.9
(II) +KL散度	44.2	12.1	8.6	6.4	17.8
(III) +NMS	45.9	13.0	9.6	7.7	19.1
(IV) +JBU	46.3	13.3	10.1	8.8	19.6
(V) +最优传输路径	66.9	28.6	41.7	22.8	40.0
(VI) +最大传输速度	67.8	28.9	43.3	23.0	40.8
(VII) 融合(V)+(VI)	64.9	26.8	41.4	20.5	38.4

关键发现¶

分布差异可替代logits优化：简单KL散度就带来+8.9% mIoU提升，最优传输/马尔可夫进一步+22%
最大速度模式略优于最优路径：B/16平均+0.7%，L/14平均+0.6%
融合两个模式反而降低性能：两种差异度量关注不同方面（高频纹理 vs 类间边界），简单融合引入干扰
SD2的自注意力优于ViT基础模型：SD2的自注意力张量对构建转移矩阵更有效
去噪步数越少越好：编码过程避免注入噪声，确保确定性特征提取
\(\tau=0.3\) 是最优阈值：更高阈值导致过早退化，logits分布未达到最优退化状态

亮点与洞察¶

范式转换：从"优化logits再构建分割图"转向"直接从分布差异获得分割图"，消除了训练和模型特定调制的需求
理论优雅：将分割问题与最优传输和马尔可夫过程联系，赋予了几何和概率的双重解释
退化分布替代GT：巧妙利用GT和退化分布在特征空间中的对跖关系，使推理时不需要GT
三重自由：不需要GT标注、不需要耗时训练、不需要模型特定调制
最优路径 vs 最大速度的互补性：前者对高频纹理敏感，后者对类间边界敏感
Stable Diffusion作为特征提取器：SD2的自注意力张量比CLIP/DINO的自注意力更适合构建patch间转移概率

局限与展望¶

依赖Stable Diffusion：需要额外加载SD2模型用于自注意力提取，增加了推理时的内存和计算开销
Sinkhorn迭代的计算代价：50次迭代的最优传输计算在大分辨率图像上可能较慢
阈值\(\tau\)和正则化\(\epsilon\)需要手动调整：虽然实验表明对这些超参数相对鲁棒，但仍需经验设置
融合两种模式未能叠加收益：这固然是一个有趣发现，但也意味着错失了可能的性能上限
仅在语义分割上验证：全景分割、实例分割等更复杂任务的适用性未探索
退化分布替代GT的理论保证有限：实验验证了可行性但缺乏严格的理论分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 跳过logits优化的范式思路独特且有说服力
实验充分度: ⭐⭐⭐⭐⭐ — 8个基准、两种CLIP规模、详细消融和分析
写作质量: ⭐⭐⭐⭐ — 数学推导清晰，但部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 免训练OVSS新SOTA，方法简洁且思路可推广