跳转至

Masked Representation Modeling for Domain-Adaptive Segmentation

会议: CVPR 2026
arXiv: 2509.13801
代码: 无
领域: 语义分割 / 域自适应 / 自监督学习
关键词: 无监督域自适应, 掩码表示建模, 语义分割, 辅助任务, 特征重建

一句话总结

提出在潜在空间而非输入空间做掩码建模的辅助任务MRM,通过轻量级Rebuilder模块对编码器特征做掩码-重建并用分割损失监督,在GTA→Cityscapes上为四种UDA基线平均带来+2.3 mIoU提升,推理时零额外开销。

背景与动机

无监督域自适应(UDA)语义分割需要将源域标注知识迁移到无标注目标域。对比学习等辅助自监督任务已被证明能提升特征判别性,但掩码图像建模(MIM, 如MAE)在UDA分割中几乎无人探索。核心原因有二:(1) MIM需要修改输入结构(遮掉patch只送可见部分),与DeepLab、DAFormer等分割架构不兼容;(2) MIM的像素级重建目标与分割的语义分类目标不一致,存在优化冲突。

核心问题

如何将掩码建模的优势(全局上下文理解、特征鲁棒性)引入UDA语义分割,同时解决架构兼容性和目标对齐两大问题?

方法详解

整体框架

MRM作为即插即用的辅助任务,嵌入现有UDA流程。输入完整图像通过编码器得到特征 \(f_t\),然后在特征空间中随机掩码40%的区域,由轻量Rebuilder重建被掩码部分,重建后的特征送入分割解码器做像素级分类,用伪标签监督。训练结束后Rebuilder移除,推理与原始模型完全一致。总损失:\(\mathcal{L} = \mathcal{L}_{sup} + \mathcal{L}_{uda} + \lambda \mathcal{L}_{mrm}\)

关键设计

  1. 潜在空间掩码而非输入空间掩码:编码器处理完整输入,在编码器输出的特征图上做随机块掩码。这保证了与任何分割架构(CNN/Transformer)的兼容性——不需要修改编码器的输入处理方式。与MAE形成鲜明对比:MAE只送可见patch给编码器,而MRM送完整图像。

  2. 任务对齐的重建目标:不像MAE那样重建正像素值,MRM将重建后的特征送入分割解码器做像素级分类(cross-entropy loss + 伪标签),使辅助任务的优化目标与主任务完全一致。消融实验证实,像素级回归反而有害(-0.3 mIoU),而分类目标带来+3.8 mIoU提升。

  3. 轻量Rebuilder设计:包含特征嵌入(线性变换+空间插值到16×16×512)、掩码/填充(可学习mask token替代被掩码区域)、少量Transformer块(仅2个)、投影器(转置卷积恢复原始分辨率)。重建后通过残差融合:\(f_r = M_s \odot f_o + (1-M_s) \odot f_t\),仅替换被掩码区域。训练时Rebuilder与主网络联合优化但推理时完全移除。

损失函数 / 训练策略

MRM损失为目标域伪标签的cross-entropy分类损失,权重\(\lambda=1.0\)。仅在目标域图像上应用MRM(源域MRM反而有害——会将特征偏向源域分布)。关键发现:MRM必须同时训练编码器和解码器才能获得最佳效果,冻结任一者都会降低增益。

实验关键数据

基线方法 GTA→CS (baseline) GTA→CS (+MRM) 提升 Synthia→CS (+MRM) 提升
DACS 52.1 55.9 +3.8 55.8 +7.5
DAFormer 68.3 70.3 +2.0 62.6 +1.7
HRDA 73.8 75.4 +1.6 67.1 +1.3
MIC 75.9 77.5 +1.6 68.1 +0.8

MIC+MRM达到77.5 mIoU,超越当时所有SOTA方法(QuadMix 76.1、GANDA 74.5)。

消融实验要点

  • 掩码率40%最优:低于MAE的75%,因为MRM的Rebuilder容量更小,过高掩码率使语义信息丧失不可逆
  • 仅掩码无重建有害(-0.2):说明特征空间的掩码造成不可逆语义丢失,重建过程是关键
  • 重建目标对比:像素回归(-0.3) < 教师特征重建(+1.4/+1.6) < 像素分类(+3.8),辅助任务必须与主任务目标对齐
  • 应用域选择:仅目标域(+3.8) > 源+目标域(+3.1) > 仅源域(+0.8),MRM的本质是目标域自适应正则化
  • 跨架构泛化:ResNet50/101、MiT-B2/B3、DeepLabV2/V3+均有效,增益+2.1~+4.6

亮点

  • 极致简洁:一个公式说清楚核心设计(潜在空间掩码+分类重建),且完全即插即用,推理零开销
  • MRM通过information bottleneck视角的分析很有说服力:掩码相当于结构化噪声注入,减少\(I(Z;X)\)同时保留\(I(Z;Y)\)
  • 发现"像素重建目标对分割任务有害"这一反直觉结论对社区有参考价值
  • 仅在目标域应用MRM才有效,揭示了辅助任务在UDA中的正确使用方式

局限性 / 可改进方向

  • Rebuilder容量有限(仅2个Transformer块),扩大容量时训练不稳定
  • 仅验证了UDA设置,能否推广到domain generalization、source-free UDA等更广泛设置未知
  • 掩码策略较简单(均匀随机),语义引导的掩码可能带来更大增益
  • 仅适用于像素级分类任务,深度估计、全景分割等需要进一步研究

与相关工作的对比

  • vs MAE/MIM:MAE在输入空间掩码并重建像素,与分割架构不兼容且目标不对齐。MRM在特征空间掩码并用分类目标重建,完美兼容且效果更好
  • vs 对比学习辅助任务(SePiCo, PiPa):对比学习只增强编码器特征,MRM同时训练编码器和解码器,提供更全面的正则化
  • vs MIC:MIC在图像空间做掩码一致性(类似高比例CutOut),MRM在特征空间做掩码重建,两者正交互补——MIC+MRM达到77.5 mIoU

启发与关联

  • "将复杂的自监督任务在潜在空间而非输入空间执行"这一思路可以推广到其他视觉任务——比如视频理解中的时序掩码建模
  • 辅助任务的目标必须与主任务对齐——这对设计新的预训练或微调策略有指导意义
  • 可以考虑将MRM与知识蒸馏结合,用教师模型的特征作为重建目标的增强

评分

  • 新颖性: ⭐⭐⭐⭐ 核心思想(特征空间掩码+分类重建)简洁但有效,虽然组件不全新,组合方式巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 四种基线×两个基准、详尽消融、多架构泛化验证、理论分析,非常完整
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,motivation和设计选择的逻辑链非常连贯
  • 价值: ⭐⭐⭐⭐ 作为即插即用模块,对UDA分割社区有直接实用价值