Open-Vocabulary Domain Generalization in Urban-Scene Segmentation¶
会议: CVPR 2026 arXiv: 2602.18853 代码: DZhaoXd/s2_corr 领域: 自动驾驶 关键词: 开放词汇分割, 域泛化, 状态空间模型, 文本-图像相关性, 城市场景分割
一句话总结¶
提出 OVDG-SS 新设定,统一处理语义分割中的未见域和未见类别问题,并设计基于状态空间模型的 S2-Corr 模块来修复域偏移导致的文本-图像相关性退化,在自动驾驶场景中实现高效且鲁棒的跨域开放词汇分割。
研究背景与动机¶
- DG-SS 局限于闭集:传统域泛化语义分割(DG-SS)方法虽能提升跨域鲁棒性,但只能识别训练集中出现过的固定类别,无法应对开放世界中的新语义(如夜间出现的路障、交通锥)。
- OV-SS 对域偏移敏感:现有开放词汇分割(OV-SS)模型(如 CAT-Seg、MaskAdapter)在 COCO-Stuff 上训练后可识别广泛概念,但迁移到驾驶场景时性能急剧下降——即使类别重叠,换域后 mIoU 下降显著(Table 1 所示,COCO 训练的 CAT-Seg 在 Dv-19 仅 31.6%,而 Cityscapes 训练后提升到 49.3%)。
- 两种能力未被统一:DG-SS 处理域偏移但不识别新类别,OV-SS 识别新类别但不抗域偏移,自动驾驶需要两者兼备——模型必须同时适应恶劣天气/不同地域等未见域,并识别训练中未出现的物体。
- 缺乏评估基准:此前不存在同时涵盖未见域和未见类别的驾驶场景分割基准,研究者无法系统评估 OVDG-SS 能力。
- 域偏移破坏 VLM 相关性:实验分析发现,域偏移会使预训练 VLM 的文本-图像相关性图变得嘈杂和失对齐(如 Fig. 3 所示,"sky" 类的相关性随域偏移增大而扩散到无关区域),这是 OV-SS 在 OVDG 中失败的根本原因。
- 交叉注意力传播噪声:CAT-Seg 使用交叉注意力进行相关性聚合,在域偏移下损坏的相关性会作为 noisy keys/values 进入注意力计算,误差沿空间和类别维度逐步放大。
方法详解¶
整体框架¶
S2-Corr 构建在 CAT-Seg 的相关性聚合流水线之上。给定图像-文本对,通过 CLIP(EVA02)提取视觉特征 \(\mathbf{F}_v \in \mathbb{R}^{HW \times d}\) 和文本类别嵌入 \(\mathbf{F}_t \in \mathbb{R}^{N_C \times d}\),计算初始相关性图 \(\mathbf{C} = \text{Norm}(\mathbf{F}_v \mathbf{F}_t^\top)\)。然后通过可学习投影将相关性提升到 \(d_f\) 维嵌入空间,再依次进行空间聚合和类别聚合两阶段修复。核心创新是将原有的交叉注意力聚合替换为选择性状态空间模型(SSM),并引入三项增强设计。
关键设计¶
设计一:调制前置(Modulation Before Aggregation)
- 空间调制:在空间聚合前,利用图像特征 \(\mathbf{F}_{\pi(t)}\) 通过线性投影生成调制因子 \((\gamma, \beta)\),对相关性嵌入做仿射变换 \(\hat{\mathbf{E}} = \mathbf{E} \odot (1 + \gamma) + \beta\),注入域相关的视觉线索
- 类别调制:在类别聚合前,使用多域文本提示模板(如 "a photo of {class} at night"、"in the rain" 等 10 种)编码出域感知文本特征 \(\mathbf{t}^{(d)}\),生成调制向量对类别嵌入做域自适应调整
设计二:可学习几何衰减先验(Learnable Geometric Decay Prior)
- 动态门控 \(\mathbf{A}_t\) 在域偏移下仍可能传播长距离噪声,引入几何衰减先验 \(\boldsymbol{\gamma} \in (0,1)^K\)
- 有效衰减系数:\(\mathbf{A}_t^{\text{eff}} = \sigma(\mathbf{w}) \cdot \sigma(\mathbf{W}_a \mathbf{x}_t + \mathbf{b}_a) + (1 - \sigma(\mathbf{w})) \cdot \boldsymbol{\gamma}\)
- 保持几何衰减模式 \(\|\partial \mathbf{h}_t / \partial \mathbf{h}_{t-d}\| \propto (\mathbf{A}_t^{\text{eff}})^d\),同时衰减率可学习,有效抑制长距离噪声传播
设计三:分块蛇形扫描(Chunk-wise Snake Scanning)
- 将扁平化序列按行分成等长 chunk(chunk 数设为 16),每块内顺序更新
- 行间采用蛇形遍历(奇数行正向、偶数行反向),避免行边界处的空间不连续
- 块间传递末尾隐状态:\(\mathbf{h}_{k+1}^{\text{init}} \leftarrow \mathbf{h}_k^{\text{end}}\),保持空间连续性
- 相比全序列顺序扫描,分块设计保留高并行性,大幅降低计算开销
损失函数/训练策略¶
- 基于 Detectron2 实现,使用 AdamW 优化器,聚合模块学习率 \(2 \times 10^{-4}\),EVA-CLIP 编码器学习率 \(2 \times 10^{-6}\)
- 相关性嵌入维度 128,2 个空间块 + 2 个上采样阶段,chunk 数 16,衰减先验 \(\gamma = 0.8\)
- 视觉编码器仅更新选定的注意力投影层,文本编码器仅训练残差块内的投影权重
- ViT-B/16 仅更新 26M 参数,ViT-L/14 更新 76.8M 参数
- batch size=4,20k 迭代,单张 RTX 3090 训练 2 小时(ViT-B)/ 4 小时(ViT-L)
实验关键数据¶
主实验¶
Real-to-Real OVDG-SS(CS-7 训练,表 2):
| 方法 | Backbone | Dv-19 Ave. | Dv-58 Ave. |
|---|---|---|---|
| CAT-Seg | ViT-B/16 | 43.5 | 43.5 |
| MaskAdapter | ViT-B/16 | 45.5 | 43.8 |
| CLIPSelf | ViT-B/16 | 45.7 | 45.0 |
| S2-Corr | ViT-B/16 | 50.3 | 47.9 |
| CAT-Seg | ViT-L/14 | 49.3 | 50.0 |
| CLIPSelf | ViT-L/14 | 53.3 | 51.5 |
| S2-Corr | ViT-L/14 | 55.8 | 53.2 |
Synthetic-to-Real OVDG-SS(GTA-7 训练,表 3):
| 方法 | Backbone | Dv-19 Ave. | Dv-58 Ave. |
|---|---|---|---|
| CAT-Seg | ViT-B/16 | 43.9 | 45.6 |
| CLIPSelf | ViT-B/16 | 46.2 | 44.4 |
| S2-Corr | ViT-B/16 | 48.2 | 46.7 |
| CAT-Seg | ViT-L/14 | 47.5 | 48.2 |
| S2-Corr | ViT-L/14 | 49.9 | 49.4 |
消融实验¶
组件逐步添加消融(CS-7 → Dv-19 / Dv-58,表 4):
| 设计 | ViT-B Dv-19 | ViT-B Dv-58 | ViT-L Dv-19 | ViT-L Dv-58 | 平均 |
|---|---|---|---|---|---|
| Base (Cross-Attn) | 43.5 | 43.5 | 49.3 | 50.0 | 46.6 |
| +Selective SSM | 45.6 | 44.1 | 50.7 | 50.5 | 47.7 |
| +Modulation | 47.6 | 45.3 | 52.1 | 50.9 | 49.0 |
| +Geometric Decay | 48.3 | 46.4 | 53.2 | 51.8 | 49.9 |
| +Chunk | 49.6 | 47.3 | 55.3 | 52.7 | 51.2 |
| +Snake Scanning | 50.3 | 47.9 | 55.8 | 53.2 | 51.8 |
效率对比(ViT-B/16,表 5):
| 方法 | FPS@19类 | FPS@58类 | FPS@150类 | GPU 显存 | 训练时间 |
|---|---|---|---|---|---|
| CAT-Seg | 15.4 | 10.6 | 5.7 | 13.8 GB | 180 min |
| ESC-Net | 15.0 | 9.9 | 5.1 | 15.7 GB | 220 min |
| S2-Corr | 26.1 | 22.2 | 18.3 | 9.2 GB | 140 min |
关键发现¶
- SSM 替换交叉注意力即可带来 +1.1 mIoU 平均提升,验证顺序聚合优于窗口注意力
- 噪声抑制组件(几何衰减 + 分块机制)带来最大增益,尤其在大词汇量 Dv-58 设定下
- 词汇量从 19 扩大到 150 时,CAT-Seg 的 FPS 从 15.4 降到 5.7(-63%),而 S2-Corr 仅从 26.1 降到 18.3(-30%),体现线性复杂度的可扩展性
- S2-Corr 在所有 7 个未见目标域上均一致超越所有基线,无论合成到真实还是真实到真实设定
亮点与洞察¶
- 新问题定义:首次将 DG-SS 和 OV-SS 统一为 OVDG-SS,提出了一个更贴近真实自动驾驶需求的研究设定
- 系统性基准:构建首个 OVDG-SS 驾驶基准,涵盖 7 个目标域(恶劣天气、不同地区、施工场景)和 58 个扩展类别,包含合成到真实和真实到真实两种评估范式
- 根因分析驱动设计:先分析 OV-SS 在域偏移下失败的根因(相关性图噪声 + 注意力传播放大),再针对性设计解决方案,逻辑链清晰
- 效率优势突出:S2-Corr 在大词汇量下 FPS 是 CAT-Seg 的 3.2 倍,显存仅需 9.2 GB,训练仅 2 小时,极具实用性
- SSM 的新应用场景:将状态空间模型用于文本-图像相关性修复是新颖的切入点,衰减门控天然适合抑制噪声传播
局限性¶
- 训练数据仅使用 7 类 Cityscapes/GTA 子集,基础词汇量较小,更大的训练词汇量是否影响方法有效性未知
- ACDC-41 和 BDD-41 的扩展类由 Stable Diffusion 2.1 合成 inpaint 生成,与真实场景的未见物体分布可能有差距
- 蛇形扫描固定为行方向,未探索列方向或多方向扫描的互补性
- 10 种域感知文本提示为手工设计,未探索可学习 prompt tuning
- 仅在 EVA02-CLIP 上验证,未涉及其他 VLM backbone(如 SigLIP、InternVL)
相关工作¶
- DG-SS:数据增强类(AdvStyle、DGInStyle)和 PEFT 类(适配器微调、参数选择)方法,但均限于闭集
- OV-SS Training-free:ClearCLIP、ProxyCLIP、CLIP-DINOiser 等无需训练但不抗域偏移
- OV-SS Training-based:CAT-Seg(相关性 + 交叉注意力)、MaskAdapter、ESC-Net 等在 COCO 上训练但迁移到驾驶域退化
- OV-SS + DG 结合:CAT-Seg+AdvStyle、CAT-Seg+DGInStyle 简单组合两种方法,被 S2-Corr 大幅超越
- 状态空间模型:Mamba/VMamba 用于视觉任务,本文将 SSM 首次用于文本-图像相关性聚合修复
评分¶
- 新颖性: ⭐⭐⭐⭐ (OVDG-SS 是有意义的新设定,S2-Corr 的设计动机清晰且方法新颖)
- 实验充分度: ⭐⭐⭐⭐⭐ (7 个目标域、两种训练设定、两种 backbone、完整消融、效率分析、可视化)
- 写作质量: ⭐⭐⭐⭐ (问题分析 → 基线建立 → 逐步增强的叙事结构清晰)
- 价值: ⭐⭐⭐⭐ (基准和方法对自动驾驶开放世界感知有实际参考价值)