DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation¶

会议: CVPR 2025
arXiv: 2505.11676
代码: 无
领域: 分割 / 多模态VLM
关键词: 开放词汇分割, 双提示, 代价体积, 视觉提示, CLIP

一句话总结¶

DPSeg 提出在开放词汇语义分割中同时利用文本提示和 Stable Diffusion 生成的视觉提示来构建双提示代价体积，通过多尺度视觉代价体积引导解码器和两轮推理的语义精炼策略，在 5 个公开数据集上全面超越现有方法。

研究背景与动机¶

领域现状：开放词汇语义分割（OVSS）旨在对包含训练时未见类别的图像进行像素级分类。当前方法主要利用 CLIP 的文本-图像对齐能力，通过计算图像 patch 特征与文本 embedding 之间的代价体积（cost volume）来实现分割。CAT-Seg 和 SED 是该方向的代表性工作。

现有痛点：(1) 尽管 CLIP 在训练时对齐了图像和文本模态，但两者之间仍存在显著的模态鸠差 (modality gap)，仅依赖文本 embedding 来定位图像中的目标精度有限；(2) 现有方法仅使用深层的文本对齐特征来生成代价体积，缺乏浅层特征的引导，对小物体和细节的检测能力不足。

核心矛盾：文本和图像本质上属于不同模态，即使经过大规模预训练对齐，两者在 embedding 空间中的余弦相似度仍然明显低于同模态内部的相似度。这个模态差距限制了基于文本提示的分割精度。

本文目标 如何弥合文本-图像模态差距以提升分割精度？如何利用多尺度特征提供更丰富的空间-语义线索？

切入角度：作者通过实验发现视觉提示（用 Stable Diffusion 从文本描述生成的参考图像）与目标图像在 CLIP embedding 空间中的相似度显著高于文本提示（约 0.7 vs 0.3）。视觉提示生成的代价体积也有更清晰的语义轮廓。因此，结合文本和视觉两种提示可以互补优势。

核心 idea：用 Stable Diffusion 生成视觉提示弥合文本-图像模态差距，双提示融合代价体积+多尺度解码实现 OVSS 新 SOTA。

方法详解¶

整体框架¶

DPSeg 由三个核心模块组成：(1) 双提示代价体积生成：用文本模板生成文本提示 embedding，同时用 Stable Diffusion 生成对应的视觉提示图像并提取 embedding，二者平均后与图像特征计算代价体积；(2) 代价体积引导解码器：将代价体积逐层上采样，同时在每个尺度融合图像编码器的多尺度特征和视觉提示的多尺度特征；(3) 语义引导提示精炼：第一轮推理的分割结果裁剪目标区域作为第二轮的视觉提示，替换 Stable Diffusion 生成的提示来精炼分割。

关键设计¶

双提示代价体积生成 (Dual-Prompt Cost Volume Generation):
- 功能：生成比单一文本提示更精确的像素级语义相似度图
- 核心思路：对每个类别 \(C_k\) 用多个文本模板（如 "a photo of a {\(C_k\)}"）生成文本 embedding \(\mathbf{T}\)，同时将这些模板输入 Stable Diffusion 生成视觉提示图像，用 CLIP 图像编码器提取视觉 embedding \(\mathbf{V}\)。融合方式为简单取平均 \(\mathbf{R} = \text{Avg}(\mathbf{V} + \mathbf{T})\)，再与图像特征 \(\mathbf{E}\) 做逐像素余弦相似度得到代价体积 \(\mathcal{F}_c\)
- 设计动机：t-SNE 可视化显示双提示 embedding 距目标图像特征仅 0.18（文本 0.39，视觉 0.33），取平均是最简单且最有效的融合策略。消融证实平均 embedding 后再算相似度优于分别算相似度再拼接/平均
代价体积引导解码器 (Cost Volume-Guided Decoder, CVGD):
- 功能：多尺度融合代价体积、图像特征和视觉提示特征，逐步上采样预测分割图
- 核心思路：解码器分 3 个阶段，每阶段包含混合空洞卷积（dilation 1/2/4）、自注意力层、反卷积上采样。关键创新是在每个阶段利用图像编码器和视觉提示编码器的中间层特征计算视觉代价体积 \(\mathcal{F}_v^j\)，直接与解码特征对齐，避免了初始代价体积上采样导致的细节退化
- 设计动机：现有方法对初始代价体积上采样会损失细粒度信息，用多尺度视觉代价体积补充不同层级的空间-语义线索
语义引导提示精炼 (Semantic-Guided Prompt Refinement):
- 功能：利用第一轮分割结果精炼视觉提示，提升边界精度
- 核心思路：两轮推理策略——Inference I 使用 Stable Diffusion 生成的视觉提示得到初步分割结果；Inference II 用初步分割 mask 从原图裁剪检测到的类别区域作为该类别的新视觉提示，替换原视觉提示后重新推理，未检测到的类别仍用原提示
- 设计动机：Stable Diffusion 生成的视觉提示可能与输入图像的具体实例不完全对齐，用场景自适应的裁剪区域做提示更精确

损失函数 / 训练策略¶

使用逐像素二元交叉熵损失
在 COCO-Stuff 上训练，AdamW 优化器，学习率 \(2 \times 10^{-4}\)
文本编码器和视觉提示编码器均冻结，仅训练图像编码器和解码器
训练 80K 迭代，batch size 4，2 张 V100 GPU

实验关键数据¶

主实验¶

ConvNeXt-B 配置：

方法	A-847	PC-459	A-150	PC-59	PAS-20
SED	11.4	18.6	31.6	57.3	94.4
CAT-Seg	8.4	16.6	27.2	57.5	93.7
DPSeg (Inf. II)	12.5	20.1	33.3	58.4	96.9

ConvNeXt-L 配置：

方法	A-847	PC-459	A-150	PC-59	PAS-20
SED	13.9	22.6	35.2	60.6	96.1
DPSeg (Inf. II)	15.7	24.1	37.1	62.3	98.5

消融实验¶

提示策略消融：

提示策略	A-847	PC-459	A-150	PC-59	PAS-20
仅文本 T	10.4	17.4	30.6	56.2	93.4
仅视觉 V	11.1	18.0	31.2	56.9	94.5
Avg(T,V) (ours)	12.0	19.5	32.9	58.1	96.0

多尺度代价体积消融：

配置	A-847	A-150	说明
仅 \(\mathcal{F}_c\)	10.6	31.6	无多尺度引导
\(\mathcal{F}_c + \mathcal{F}_v^{2}\)	11.4	32.1	加 1 层视觉代价体积
\(\mathcal{F}_c + \mathcal{F}_v^{2,3,4}\) (ours)	12.0	32.9	全 3 层视觉代价体积

关键发现¶

视觉提示的分割效果一致优于文本提示，验证了同模态对齐优于跨模态对齐的假设
双提示融合仅用简单平均就超越了拼接和代价体积层面的融合策略
Inference II 相比 Inference I 一致提升约 0.5-0.9 mIoU，说明场景自适应提示精炼有效
每增加一个尺度的视觉代价体积，A-847 提升约 0.6-0.3，说明多尺度引导逐层贡献递减但仍有价值
上采样代价体积（传统策略）的效果明显不如利用多尺度视觉代价体积

亮点与洞察¶

用 Stable Diffusion 弥合模态差距：利用生成模型将文本提示转化为视觉提示，巧妙地将跨模态对齐问题转化为同模态匹配问题。这个思路简单但非常有效，可以迁移到任何需要文本-图像对齐的任务
两轮推理精炼策略：第一轮检测到的区域裁剪作为第二轮的视觉提示，类似于 coarse-to-fine 的思想但不需要任何额外训练，仅通过推理流程设计就提升了精度
多尺度视觉代价体积引导：避免了代价体积上采样的信息损失，直接在每个解码层用对应尺度的视觉特征计算代价体积

局限与展望¶

依赖 Stable Diffusion 预生成视觉提示，增加了推理准备的时间和存储开销
两轮推理翻倍了推理时间，对实时应用不友好
视觉提示质量受 Stable Diffusion 生成质量影响，对不常见概念可能生成质量较差的参考图像
训练时仅使用文本和视觉提示编码器的冻结特征，限制了模型的适应能力
代价体积的分辨率受限于编码器输出，对极小物体的分割仍可能不足

评分¶

新颖性: ⭐⭐⭐⭐ 用生成模型产生视觉提示弥合模态差距的思路新颖有效
实验充分度: ⭐⭐⭐⭐ 5 个数据集 + 两种 backbone + 详细消融
写作质量: ⭐⭐⭐⭐ 动机分析清晰（t-SNE、模态差距实验），结构完整
价值: ⭐⭐⭐⭐ 为开放词汇分割提供了新范式，视觉提示的引入具有普适性