Exploiting Domain Properties in Language-Driven Domain Generalization for Semantic Segmentation¶

会议: ICCV 2025
arXiv: 2512.03508
代码: https://github.com/jone1222/DPMFormer
领域: segmentation
关键词: domain generalization, semantic segmentation, vision-language model, prompt learning, domain-aware

一句话总结¶

提出DPMFormer框架，通过域感知提示学习将输入图像的域特有属性转化为文本上下文提示，并结合域鲁棒一致性学习，解决语言驱动域泛化语义分割中视觉与文本上下文的语义错位问题。

研究背景与动机¶

域泛化语义分割(DGSS)旨在仅使用单一源域训练模型使其泛化到各种未见目标域。近期研究利用VLM（如CLIP）的语义知识取得显著进展，但存在两个被忽视的关键问题：

文本上下文的语义错位：固定的上下文提示（手工模板如"a photo of"或在源域上学习的单一提示）在目标域上会导致视觉-文本语义失配。例如，在白天合成图像上学习的提示遇到夜间真实场景时能力有限。

缺乏域鲁棒性引导：现有方法未能有效引导模型在域偏移场景下保持一致预测。

作者的核心观察是：文本表征的语义形式应该随输入图像的域属性而动态变化。例如对夜晚场景中的"car"，应使用"at night in the real-world"作为提示而非泛化的"a photo of"，使文本特征包含车辆暗色外表、灯光反射等域特定信息。

方法详解¶

整体框架¶

DPMFormer基于Mask2Former架构，包含CLIP初始化的图像编码器$ENC_I$、像素解码器$DEC_{pix}$、Transformer解码器$DEC_{tr}$和冻结的文本编码器$ENC_T$。框架从两个维度提升泛化能力：(1) 域感知——利用输入图像的域特定属性；(2) 域鲁棒——在纹理变化下保持预测一致性。

关键设计¶

域感知上下文提示学习 (Domain-Aware Context Prompt Learning): 设计辅助网络$h_\theta(\cdot)$，从冻结CLIP视觉骨干提取的CLS token中生成域特定提示嵌入$\pi_x = h_\theta(\hat{F}(x))$。将其与可学习上下文提示$p$相加得到域感知提示$p_x = p + \pi_x$，生成域感知文本特征$t_{x,k} = ENC_T([p_x, \{class_k\}])$。配合域感知对比损失确保$h_\theta$捕捉域属性：$$\mathcal{L}_{contra} = -\frac{1}{2B}\sum_{i=1}^{2B}\log\frac{\sum_{j\in\mathcal{P}_i}\exp\text{sim}(\pi_i, \pi_j)/\tau}{\sum_{j\in\mathcal{P}_i\cup\mathcal{N}_i}\exp\text{sim}(\pi_i, \pi_j)/\tau}$$ 正集$\mathcal{P}_i$为同域图像，负集$\mathcal{N}_i$为不同域图像。设计动机：让文本查询动态适应目标域的视觉上下文。
纹理扰动 (Texture Perturbation): 使用光度变换（强色彩抖动、高斯模糊、噪声注入）合成新域图像$x'$，与原始图像$x$组成训练batch。这些操作保持内容结构不变，仅改变域属性，从而在单源设置下扩充可观测域的多样性。设计动机：在单一源域设置下获取多样化的域属性，为对比学习提供正负样本对。
域鲁棒一致性学习 (Domain-Robust Consistency Learning): 在Transformer解码器的每一层施加一致性约束，鼓励模型对原始图像和增强图像产生一致预测：$$\mathcal{L}_{cons} = \sum_{s=1}^{S}\lambda_{mc}\cdot\mathcal{L}_{mc}(\hat{y}^{mask}_s, \hat{y'}^{mask}_s) + \lambda_{cc}\cdot\mathcal{L}_{cc}(\hat{c}_{q_i,s}, \hat{c}_{q'_i,s})$$ 其中$\mathcal{L}_{mc}$使用BCE计算掩码一致性，$\mathcal{L}_{cc}$使用JSD计算类别一致性。设计动机：在每层解码器施加约束，防止早期层的不一致传播到后续层。

损失函数 / 训练策略¶

总损失：$\mathcal{L}_{total} = \mathcal{L}_{seg} + \lambda_{reg}\mathcal{L}_{reg} + \lambda_{contra}\mathcal{L}_{contra} + \lambda_{cons}\mathcal{L}_{cons}$

权重设置：$\lambda_{reg}=1, \lambda_{contra}=1, \lambda_{cons}=10$。使用AdamW优化器，合成数据集学习率1e-5，真实数据集1e-4。训练20000迭代，batch size 8，输入裁剪为512×512。线性warm-up前1500迭代。$h_\theta$为轻量级网络（BatchNorm-Linear-ReLU-Linear）。

实验关键数据¶

主实验¶

合成到真实 (GTAV→ Cityscapes/BDD/Mapillary)：

方法	骨干	Cityscapes	BDD	Mapillary	平均
SHADE	ResNet-101	46.66	43.66	45.50	45.27
FAMix	ResNet-101	49.47	46.40	51.97	49.28
TQDM	ViT-B	57.50	47.66	59.76	54.97
DPMFormer	ViT-B	59.00	51.80	63.62	58.14
TQDM	EVA02-L	68.88	59.18	70.10	66.05
DPMFormer	EVA02-L	70.08	60.48	70.66	67.07

SYNTHIA→ 真实世界：

方法	骨干	Cityscapes	BDD	Mapillary	平均
TQDM	EVA02-L	57.99	52.43	54.87	55.10
DPMFormer	EVA02-L	58.92	54.39	60.08	57.80

消融实验¶

组件效果 (GTAV, ViT-B)：

配置	Cityscapes	BDD	Mapillary	平均
Baseline (TQDM)	57.50	47.66	59.76	54.97
+ 纹理扰动	57.04	48.19	60.91	55.38
+ $\mathcal{L}_{cons}$	58.22	49.39	60.84	56.15
+ $\mathcal{L}_{contra}$ (完整)	59.00	51.80	63.62	58.14

提示学习方法对比：

方法	Cityscapes	BDD	Mapillary	平均
无对比损失	57.65	49.63	61.10	56.13
CoCoOp	57.84	49.91	61.33	56.36
MaPLe	57.87	50.12	61.04	56.34
PromptSRC	58.10	49.73	62.51	56.78
Ours (sim(π,π))	59.00	51.80	63.62	58.14

关键发现¶

域感知提示学习贡献最大（+1.99% 平均mIoU），特别是在环境变化大的BDD（+4.14%）和Mapillary（+3.17%）上
在上下文嵌入$\pi$上计算对比损失效果最好，因为它对$h_\theta$提供直接的域引导
CoCoOp的实例特定提示反而泛化性差，因为它关注实例属性而非域属性
在极端风格（极简主义、立体主义等）上，DPMFormer仍能正确分割，体现了域鲁棒性

亮点与洞察¶

域感知 vs. 实例感知：巧妙区分了"域特定属性"和"实例特定属性"——CoCoOp学习实例级提示导致泛化差，而DPMFormer的域级提示更适合DGSS任务
纹理扰动的双重作用：既扩充域多样性提供对比学习样本，又作为一致性学习的增强源
每层一致性约束：不仅在最终输出层，而是在Transformer解码器的每一层都施加一致性，防止误差累积
轻量级域提示生成器：仅需BN-Linear-ReLU-Linear的浅层网络即可捕捉域属性

局限与展望¶

真实到真实场景（Cityscapes→BDD/Mapillary）与EVA02-L骨干下优势不明显，仅与TQDM持平
纹理扰动的种类有限（光度变换），未涉及更复杂的域偏移（如天气、传感器差异）
域感知提示生成器使用CLS token，可能丢失空间位置级的域信息
可探索在推理阶段的test-time adaptation与域感知提示的结合
对比损失中正负样本定义较简单，可引入更细粒度的域距离度量

评分¶

新颖性: ⭐⭐⭐⭐ 域感知提示学习的思路清晰且有效，将域属性注入文本表征是巧妙的设计
实验充分度: ⭐⭐⭐⭐ 覆盖合成→真实、真实→真实多种设置，提示方法对比分析深入
写作质量: ⭐⭐⭐⭐ 动机阐述清楚，PCA可视化和艺术风格实验增强说服力
价值: ⭐⭐⭐⭐ 在所有设置下达到SOTA，为域泛化中的视觉-语言对齐提供新视角