Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation¶
会议: AAAI 2026
arXiv: 2512.16567
代码: https://github.com/zhangyin1996/Causal-Tune
领域: 语义分割
关键词: 域泛化语义分割, 因果推断, 频域分析, VFM微调, DCT带通滤波
一句话总结¶
提出Causal-Tune,从因果视角分析VFM特征中的artifacts,利用DCT频域分解+高斯带通滤波分离因果/非因果因素,结合因果感知可学习token在频域精化特征,在Cityscapes→ACDC跨域分割中平均提升+2.4% mIoU(Snow场景+4.8%),仅需单卡RTX3090/14GB训练。
背景与动机¶
VFM(DINOv2、CLIP等)经过大规模预训练后,在DGSS中通过PEFT微调表现优异。但这些VFM的特征中存在明显的artifacts(如feature map中的条纹/异常高亮),这源于长期预训练引入的冗余特征。现有adapter-based PEFT方法不加区分地微调所有特征,无法有效抑制这些artifacts,限制了泛化性能。作者发现这些artifacts与非因果因素相关——在DCT频域中,非因果因素(显式的如雨雪雾夜、隐式的如亮度/模糊/噪声)集中在极高频和极低频分量中。
核心问题¶
如何在VFM微调过程中有效识别和分离因果因素(域不变的结构/纹理信息)与非因果因素(域特定的style/weather信息),以增强域泛化能力?现有频域方法(FFT、HWT)不能很好地分离隐式非因果因素,需要更有效的频域工具。
方法详解¶
整体框架¶
冻结VFM(DINOv2),在每一层的特征输出上插入Causal-Tune模块:特征→DCT转到频域→高斯带通滤波分离因果/非因果分量→丢弃非因果分量→因果感知token通过注意力精化因果分量→iDCT回空间域→添加到原特征作为残差。使用Mask2Former作为分割头。
关键设计¶
-
Causal & Non-causal Factors Filter: 对每层特征\(f_i\)做2D DCT转换到频域,然后用高斯带通滤波器\(G(u,v) = \exp(-\frac{u^2+v^2}{2R_H^2}) - \exp(-\frac{u^2+v^2}{2R_L^2})\)分离频谱。低频(<\(R_L\)=0.2)和高频(>\(R_H\)=0.7)被视为非因果因素直接丢弃,中间频段保留为因果因素。实验验证:雾/雨主要在高频,夜景主要在低频,雪同时在高低频,带通滤波是最优策略。
-
Causal Factors Tune: 引入因果感知可学习token \(T_i^{cau} = B_i A_i\)(低秩分解,参数量极小),通过注意力机制与因果特征\(F_i^{cau}\)交互。因果特征作为Query,token作为Key/Value,计算注意力权重后通过MLP投影并加残差连接精化因果分量,最后iDCT转回空间域。
-
DCT vs FFT vs HWT: 选择DCT而非FFT/HWT的原因是DCT对因果/非因果因素的分离效果更好——实验显示DCT的ACDC平均72.0% vs FFT 69.5% vs HWT 69.2%。
损失函数 / 训练策略¶
标准交叉熵分割损失。AdamW优化器,lr=1e-4,batch=4,40k iterations,单卡RTX3090(14GB显存)。\(R_L\)=0.2, \(R_H\)=0.7。
实验关键数据¶
| 设置 | 指标(mIoU) | Causal-Tune | Rein(baseline) | SET | FADA |
|---|---|---|---|---|---|
| C→ACDC Night | mIoU | 56.2 | 55.9 | 57.3 | 57.4 |
| C→ACDC Snow | mIoU | 75.4 | 70.6 | 73.6 | 73.5 |
| C→ACDC Fog | mIoU | 81.3 | 79.5 | 80.1 | 80.2 |
| C→ACDC Rain | mIoU | 75.2 | 72.5 | 74.8 | 75.0 |
| C→ACDC Avg | mIoU | 72.0 | 69.6 | 71.5 | 71.5 |
| C→BDD100K | mIoU | 66.28 | 63.54 | 65.07 | 65.12 |
| C→Mapillary | mIoU | 76.05 | 74.03 | 75.67 | 75.86 |
| G→Mapillary | mIoU | 68.21 | 66.10 | 67.68 | 68.09 |
Snow场景提升最大达+4.8%,因为雪的非因果因素同时存在于高低频,带通滤波精确去除。
消融实验要点¶
- 频域变换对比:DCT(72.0 avg) >> FFT(69.5) ≈ HWT(69.2)
- 滤波方式:只去低频(68.4) < 只去高频(70.4) < 带通滤波(72.0),证明高低频非因果因素都需要去除
- 截止频率敏感性:\(R_L \leq 0.2\), \(R_H \leq 0.8\)范围内表现较好,超出则退化
- 局限:合成→真实(G→C)方向提升有限(66.22 vs FADA 68.23)
亮点¶
- 因果视角解释VFM artifacts很有洞察力——将artifacts与非因果因素建立联系,在频域验证它们集中在极端频段
- 方法极其简洁优雅:DCT+带通滤波+learnable token,概念清晰,实现简单
- 训练资源友好:单卡RTX3090/14GB即可,对比同类VFM-based方法非常经济
- Snow场景+4.8%的提升很impressive,因为带通滤波同时去除了高低频的非因果因素
- DCT优于FFT/HWT的实验发现有参考价值——DCT的实数域表示可能更适合CV中的因素分离
局限性 / 可改进方向¶
- 带通滤波的截止频率\(R_L, R_H\)是固定的,不同天气/域偏移可能需要不同参数→作者也提到要探索动态截止频率
- 合成→真实场景(G→C)效果有限,说明方法对极大域偏移的适用性需要加强
- 仅在驾驶场景数据集上验证,未扩展到室内/医学等其他域泛化场景
- 没有与LoRA等主流PEFT方法的组合探索
与相关工作的对比¶
- vs Rein(baseline): Causal-Tune在Rein基础上增加因果频域处理,ACDC平均+2.4%,BDD100K+2.74%
- vs SET: SET也在频域做learnable token但用FFT,未区分因果/非因果,Causal-Tune通过DCT+带通滤波全面超越
- vs FADA: FADA用HWT解耦style信息,但忽略了隐式非因果因素(如亮度、模糊),Causal-Tune通过因果分析更全面
- vs MAD: MAD用数据增强去除非因果因素,Causal-Tune直接在频域操作VFM特征,更直接
启发与关联¶
- DCT频域的因果/非因果分离思路可以迁移到目标检测、实例分割的域泛化中
- "极端频段=非因果"这个洞察在其他VFM微调场景也可能成立
- 可以与InfoCLIP的思路结合——信息论+因果论双重视角优化VFM微调
评分¶
- 新颖性: ⭐⭐⭐⭐ 因果+频域+VFM PEFT的组合是新颖的,但各组件本身不新
- 实验充分度: ⭐⭐⭐⭐ 多个跨域设置+频域变换对比+滤波方式消融+可视化,但只有驾驶场景
- 写作质量: ⭐⭐⭐⭐ motivation的可视化说服力强,方法描述清晰
- 价值: ⭐⭐⭐⭐ 对恶劣天气下的域泛化分割有显著价值,方法简洁易复现