Leveraging Depth and Language for Open-Vocabulary Domain-Generalized Semantic Segmentation¶

会议: NeurIPS 2025
arXiv: 2506.09881
代码: GitHub (有)
领域: Autonomous Driving / Semantic Segmentation
关键词: 开放词汇分割, 域泛化, 深度估计, 视觉基础模型, 语义分割

一句话总结¶

提出Vireo框架，首次将开放词汇语义分割（OVSS）和域泛化语义分割（DGSS）统一到单阶段框架中，通过GeoText Query融合深度几何特征与语言线索，在极端环境和未见类别上均实现SOTA表现。

研究背景与动机¶

领域现状：开放词汇语义分割（OVSS）能识别任意文本描述的类别，域泛化语义分割（DGSS）能在未见域上保持鲁棒性，两者各有所长但互补。

现有痛点：OVSS的文本-视觉对齐模块在域外（如夜晚、雨天）性能大幅下降；DGSS的域不变策略可能抑制细粒度语义线索，影响对文本查询的精确响应。

核心矛盾：如何同时实现跨域鲁棒性和开放词汇识别能力？DGSS侧重编码器端特征泛化，OVSS侧重解码器端开放识别——两者天然互补。

本文目标：构建统一的OV-DGSS（开放词汇域泛化语义分割）框架，在域偏移下对未见类别也能鲁棒分割。

切入角度：利用深度图的域不变性（深度和几何线索对光照、纹理变化不敏感），结合冻结VFM的泛化能力。

核心 idea：用GeoText Query在冻结VFM层间注入深度几何和文本语义先验，辅以CMPE增强梯度流和DOV-VEH融合多模态特征。

方法详解¶

整体框架¶

Vireo包含三个核心模块： - Tunable Vireo + GeoText Query：在冻结VFM编码器层间注入并对齐几何和文本信息 - Coarse Mask Prior Embedding (CMPE)：生成粗糙先验掩码，增强梯度回传 - Domain-Open-Vocabulary Vector Embedding Head (DOV-VEH)：融合视觉、几何、语义特征生成最终预测

输入图像同时送入冻结的VFM编码器和冻结的DepthAnything V2编码器（深度估计），文本类别标签通过冻结CLIP文本编码器获得语义嵌入。

关键设计¶

GeoText Query：
- 功能：在冻结VFM的各层间注入结构-语义先验，逐层精炼特征
- 为什么：深度特征提供域不变的空间约束，缓解RGB特征的域偏移；文本嵌入提供开放词汇的语义对齐
- 怎么做：每层通过交叉注意力机制让可学习query \(P_l\) 与视觉特征 \(f_l^V\)、深度特征 \(f_l^D\)、文本嵌入 \(t_k\) 交互： \(\mathcal{A}_l = \text{CrossAttn}(P_l, f_l^V, f_l^D, \{t_k\})\) 注意力输出通过加权求和、MLP投影和残差连接精炼视觉表示 \(\hat{f}_l^V\)
- 区别：不同于REIN仅做prompt tuning，GeoText Query同时融合了深度和文本两种跨模态先验
Coarse Mask Prior Embedding (CMPE)：
- 功能：生成粗糙语义概率图，反向增强梯度流通过冻结编码器
- 为什么：冻结编码器导致梯度稀疏、收敛缓慢，CMPE注入更密集的梯度信号
- 怎么做：选取VFM第8/12/16/24层的精炼特征，上采样到统一分辨率，经自适应注意力门控（AAG）融合后，与文本嵌入通过爱因斯坦求和计算粗糙掩码 \(\mathcal{M}(x,y,k) = \langle f^M(x,y), t_k \rangle\)。进一步通过softmax归一化生成query先验： \(q_j^{prior} = \sum_k \text{Softmax}(\langle q_j, e_k^{class} \rangle) \cdot e_k^{class}\)
DOV-VEH (Domain-Open-Vocabulary Vector Embedding Head)：
- 功能：融合多尺度精炼特征，生成像素级分割掩码
- 怎么做：多尺度特征经Pixel Decoder增强空间表示，再经Transformer Decoder让GeoText Query与解码特征和文本嵌入交互，生成掩码嵌入 \(\mathcal{E}_{mask}\) 和分类嵌入 \(\mathcal{E}_{cls}\)，最终预测： \(\hat{\mathcal{M}}(x,y,k) = \sum_d \mathcal{E}_{mask}(x,y,d) \cdot \mathcal{E}_{cls}(k,d)\)

损失函数 / 训练策略¶

使用AdamW优化器，初始学习率1e-4，权重衰减0.05
多项式学习率衰减，总迭代40K步
数据增强：多尺度resize、随机裁剪、随机水平翻转、光度扰动
单卡RTX A6000训练，batch size 8，约14小时

实验关键数据¶

主实验¶

域泛化能力（Cityscapes → ACDC + BDD + Mapillary, mIoU %）：

方法	Night-ACDC	Fog-ACDC	Rain-ACDC	Snow-ACDC	BDD100k	Mapillary
FC-CLIP (OVSS)	40.8	64.4	63.2	61.5	55.9	66.1
REIN (DGSS)	55.9	79.5	72.5	70.6	63.5	74.0
FADA (DGSS)	57.4	80.2	75.0	73.5	65.1	75.9
Vireo	60.6	82.3	76.3	76.2	66.7	76.0

开放词汇能力（Cityscapes → DELIVER + ADE, mIoU %）：

方法	Sun	Night	Cloud	Rain	Fog	ADE150	ADE847
CAT-Seg	28.2	20.6	26.2	26.5	24.8	20.2	7.0
Vireo	35.7	27.5	32.3	31.8	32.7	21.4	7.3

消融实验¶

组件消融（Cityscapes → ACDC + BDD + Map, mIoU %）：

配置	Snow	Night	Fog	Rain	BDD	Map
REIN (baseline)	70.6	55.9	79.5	72.5	63.5	74.0
+ DepthAnything V2	71.5	56.7	80.5	73.3	64.4	74.5
+ GeoText Query	74.0	58.4	81.1	74.8	65.3	75.3
Vireo（完整）	76.2	60.6	82.3	76.3	66.7	76.0

多backbone泛化（GTA5 → Citys+BDD+Map, mIoU）：

Backbone	REIN	FADA	Vireo	可训练参数
EVA02-L	63.6	64.9	66.0	3.78M
DINOv2-L	64.3	66.1	67.7	3.78M

关键发现¶

GeoText Query是最关键组件，在夜间场景提升约2.5% mIoU
深度几何特征在极端天气（特别是夜间和雪天）帮助最大
Vireo在Seen和Unseen类别上均优于现有OVSS方法，Unseen类别优势更明显（+7%以上）
仅需3.78M可训练参数，远少于FADA（11.65M），但性能更优

亮点与洞察¶

问题定义有意义：首次提出OV-DGSS问题，将开放词汇和域泛化统一，更贴近自动驾驶实际需求
深度线索的巧妙利用：深度图天然具有域不变性，用冻结的DepthAnything提取几何特征是轻量且有效的策略
DGSS和OVSS的互补性洞察：DGSS优化编码器端泛化，OVSS优化解码器端识别——Vireo在两端同时发力
参数效率高：3.78M可训练参数即实现SOTA，适合实际部署

局限与展望¶

深度估计依赖DepthAnything V2的质量，在极端场景（如强雾、夜间）深度估计可能不准确
CMPE生成的粗糙掩码质量有限，可能引入噪声先验
ADE847上的绝对性能仍较低（7.3% mIoU），847类超细粒度分割仍是挑战
训练内存需求较高（~45GB GPU显存），部署效率有待优化
仅验证了自动驾驶相关场景，其他OV-DGSS应用（如医疗影像）未探索

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义OV-DGSS问题并提出统一框架，GeoText Query设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 8个数据集、5种评测设置、多backbone验证、详细消融
写作质量: ⭐⭐⭐⭐ 框架图清晰，实验组织有条理，方法描述完整
价值: ⭐⭐⭐⭐⭐ 统一OV+DG对自动驾驶场景非常实用，参数效率高