Open-Vocabulary Domain Generalization in Urban-Scene Segmentation¶

会议: CVPR 2026 arXiv: 2602.18853 代码: DZhaoXd/s2_corr 领域: 自动驾驶 关键词: 开放词汇分割, 域泛化, 状态空间模型, 文本-图像相关性, 城市场景分割

一句话总结¶

提出 OVDG-SS 新设定，统一处理语义分割中的未见域和未见类别问题，并设计基于状态空间模型的 S2-Corr 模块来修复域偏移导致的文本-图像相关性退化，在自动驾驶场景中实现高效且鲁棒的跨域开放词汇分割。

研究背景与动机¶

DG-SS 局限于闭集：传统域泛化语义分割（DG-SS）方法虽能提升跨域鲁棒性，但只能识别训练集中出现过的固定类别，无法应对开放世界中的新语义（如夜间出现的路障、交通锥）。
OV-SS 对域偏移敏感：现有开放词汇分割（OV-SS）模型（如 CAT-Seg、MaskAdapter）在 COCO-Stuff 上训练后可识别广泛概念，但迁移到驾驶场景时性能急剧下降——即使类别重叠，换域后 mIoU 下降显著（Table 1 所示，COCO 训练的 CAT-Seg 在 Dv-19 仅 31.6%，而 Cityscapes 训练后提升到 49.3%）。
两种能力未被统一：DG-SS 处理域偏移但不识别新类别，OV-SS 识别新类别但不抗域偏移，自动驾驶需要两者兼备——模型必须同时适应恶劣天气/不同地域等未见域，并识别训练中未出现的物体。
缺乏评估基准：此前不存在同时涵盖未见域和未见类别的驾驶场景分割基准，研究者无法系统评估 OVDG-SS 能力。
域偏移破坏 VLM 相关性：实验分析发现，域偏移会使预训练 VLM 的文本-图像相关性图变得嘈杂和失对齐（如 Fig. 3 所示，"sky" 类的相关性随域偏移增大而扩散到无关区域），这是 OV-SS 在 OVDG 中失败的根本原因。
交叉注意力传播噪声：CAT-Seg 使用交叉注意力进行相关性聚合，在域偏移下损坏的相关性会作为 noisy keys/values 进入注意力计算，误差沿空间和类别维度逐步放大。

方法详解¶

整体框架¶

S2-Corr 构建在 CAT-Seg 的相关性聚合流水线之上。给定图像-文本对，通过 CLIP（EVA02）提取视觉特征 \(\mathbf{F}_v \in \mathbb{R}^{HW \times d}\) 和文本类别嵌入 \(\mathbf{F}_t \in \mathbb{R}^{N_C \times d}\)，计算初始相关性图 \(\mathbf{C} = \text{Norm}(\mathbf{F}_v \mathbf{F}_t^\top)\)。然后通过可学习投影将相关性提升到 \(d_f\) 维嵌入空间，再依次进行空间聚合和类别聚合两阶段修复。核心创新是将原有的交叉注意力聚合替换为选择性状态空间模型（SSM），并引入三项增强设计。

关键设计¶

设计一：调制前置（Modulation Before Aggregation）

空间调制：在空间聚合前，利用图像特征 \(\mathbf{F}_{\pi(t)}\) 通过线性投影生成调制因子 \((\gamma, \beta)\)，对相关性嵌入做仿射变换 \(\hat{\mathbf{E}} = \mathbf{E} \odot (1 + \gamma) + \beta\)，注入域相关的视觉线索
类别调制：在类别聚合前，使用多域文本提示模板（如 "a photo of {class} at night"、"in the rain" 等 10 种）编码出域感知文本特征 \(\mathbf{t}^{(d)}\)，生成调制向量对类别嵌入做域自适应调整

设计二：可学习几何衰减先验（Learnable Geometric Decay Prior）

动态门控 \(\mathbf{A}_t\) 在域偏移下仍可能传播长距离噪声，引入几何衰减先验 \(\boldsymbol{\gamma} \in (0,1)^K\)
有效衰减系数：\(\mathbf{A}_t^{\text{eff}} = \sigma(\mathbf{w}) \cdot \sigma(\mathbf{W}_a \mathbf{x}_t + \mathbf{b}_a) + (1 - \sigma(\mathbf{w})) \cdot \boldsymbol{\gamma}\)
保持几何衰减模式 \(\|\partial \mathbf{h}_t / \partial \mathbf{h}_{t-d}\| \propto (\mathbf{A}_t^{\text{eff}})^d\)，同时衰减率可学习，有效抑制长距离噪声传播

设计三：分块蛇形扫描（Chunk-wise Snake Scanning）

将扁平化序列按行分成等长 chunk（chunk 数设为 16），每块内顺序更新
行间采用蛇形遍历（奇数行正向、偶数行反向），避免行边界处的空间不连续
块间传递末尾隐状态：\(\mathbf{h}_{k+1}^{\text{init}} \leftarrow \mathbf{h}_k^{\text{end}}\)，保持空间连续性
相比全序列顺序扫描，分块设计保留高并行性，大幅降低计算开销

损失函数/训练策略¶

基于 Detectron2 实现，使用 AdamW 优化器，聚合模块学习率 \(2 \times 10^{-4}\)，EVA-CLIP 编码器学习率 \(2 \times 10^{-6}\)
相关性嵌入维度 128，2 个空间块 + 2 个上采样阶段，chunk 数 16，衰减先验 \(\gamma = 0.8\)
视觉编码器仅更新选定的注意力投影层，文本编码器仅训练残差块内的投影权重
ViT-B/16 仅更新 26M 参数，ViT-L/14 更新 76.8M 参数
batch size=4，20k 迭代，单张 RTX 3090 训练 2 小时（ViT-B）/ 4 小时（ViT-L）

实验关键数据¶

主实验¶

Real-to-Real OVDG-SS（CS-7 训练，表 2）：

方法	Backbone	Dv-19 Ave.	Dv-58 Ave.
CAT-Seg	ViT-B/16	43.5	43.5
MaskAdapter	ViT-B/16	45.5	43.8
CLIPSelf	ViT-B/16	45.7	45.0
S2-Corr	ViT-B/16	50.3	47.9
CAT-Seg	ViT-L/14	49.3	50.0
CLIPSelf	ViT-L/14	53.3	51.5
S2-Corr	ViT-L/14	55.8	53.2

Synthetic-to-Real OVDG-SS（GTA-7 训练，表 3）：

方法	Backbone	Dv-19 Ave.	Dv-58 Ave.
CAT-Seg	ViT-B/16	43.9	45.6
CLIPSelf	ViT-B/16	46.2	44.4
S2-Corr	ViT-B/16	48.2	46.7
CAT-Seg	ViT-L/14	47.5	48.2
S2-Corr	ViT-L/14	49.9	49.4

消融实验¶

组件逐步添加消融（CS-7 → Dv-19 / Dv-58，表 4）：

设计	ViT-B Dv-19	ViT-B Dv-58	ViT-L Dv-19	ViT-L Dv-58	平均
Base (Cross-Attn)	43.5	43.5	49.3	50.0	46.6
+Selective SSM	45.6	44.1	50.7	50.5	47.7
+Modulation	47.6	45.3	52.1	50.9	49.0
+Geometric Decay	48.3	46.4	53.2	51.8	49.9
+Chunk	49.6	47.3	55.3	52.7	51.2
+Snake Scanning	50.3	47.9	55.8	53.2	51.8

效率对比（ViT-B/16，表 5）：

方法	FPS@19类	FPS@58类	FPS@150类	GPU 显存	训练时间
CAT-Seg	15.4	10.6	5.7	13.8 GB	180 min
ESC-Net	15.0	9.9	5.1	15.7 GB	220 min
S2-Corr	26.1	22.2	18.3	9.2 GB	140 min

关键发现¶

SSM 替换交叉注意力即可带来 +1.1 mIoU 平均提升，验证顺序聚合优于窗口注意力
噪声抑制组件（几何衰减 + 分块机制）带来最大增益，尤其在大词汇量 Dv-58 设定下
词汇量从 19 扩大到 150 时，CAT-Seg 的 FPS 从 15.4 降到 5.7（-63%），而 S2-Corr 仅从 26.1 降到 18.3（-30%），体现线性复杂度的可扩展性
S2-Corr 在所有 7 个未见目标域上均一致超越所有基线，无论合成到真实还是真实到真实设定

亮点与洞察¶

新问题定义：首次将 DG-SS 和 OV-SS 统一为 OVDG-SS，提出了一个更贴近真实自动驾驶需求的研究设定
系统性基准：构建首个 OVDG-SS 驾驶基准，涵盖 7 个目标域（恶劣天气、不同地区、施工场景）和 58 个扩展类别，包含合成到真实和真实到真实两种评估范式
根因分析驱动设计：先分析 OV-SS 在域偏移下失败的根因（相关性图噪声 + 注意力传播放大），再针对性设计解决方案，逻辑链清晰
效率优势突出：S2-Corr 在大词汇量下 FPS 是 CAT-Seg 的 3.2 倍，显存仅需 9.2 GB，训练仅 2 小时，极具实用性
SSM 的新应用场景：将状态空间模型用于文本-图像相关性修复是新颖的切入点，衰减门控天然适合抑制噪声传播

局限性¶

训练数据仅使用 7 类 Cityscapes/GTA 子集，基础词汇量较小，更大的训练词汇量是否影响方法有效性未知
ACDC-41 和 BDD-41 的扩展类由 Stable Diffusion 2.1 合成 inpaint 生成，与真实场景的未见物体分布可能有差距
蛇形扫描固定为行方向，未探索列方向或多方向扫描的互补性
10 种域感知文本提示为手工设计，未探索可学习 prompt tuning
仅在 EVA02-CLIP 上验证，未涉及其他 VLM backbone（如 SigLIP、InternVL）

评分¶

新颖性: ⭐⭐⭐⭐ (OVDG-SS 是有意义的新设定，S2-Corr 的设计动机清晰且方法新颖)
实验充分度: ⭐⭐⭐⭐⭐ (7 个目标域、两种训练设定、两种 backbone、完整消融、效率分析、可视化)
写作质量: ⭐⭐⭐⭐ (问题分析 → 基线建立 → 逐步增强的叙事结构清晰)
价值: ⭐⭐⭐⭐ (基准和方法对自动驾驶开放世界感知有实际参考价值)