Adapter Naturally Serves as Decoupler for Cross-Domain Few-Shot Semantic Segmentation¶
会议: ICML2025
arXiv: 2506.07376
代码: 待确认
领域: segmentation
关键词: 跨域少样本分割, adapter, 领域解耦, SAM, 奇异值分解
一句话总结¶
本文发现 adapter 天然具有领域信息解耦能力(基于结构而非损失),据此提出 Domain Feature Navigator (DFN) 作为结构化领域解耦器,配合 SAM-SVN 防止源域过拟合,在跨域少样本语义分割 (CD-FSS) 上以 1-shot 平均 63.99% / 5-shot 平均 69.77% MIoU 显著超越 SOTA。
研究背景与动机¶
领域现状:跨域少样本语义分割 (CD-FSS) 要求模型在源域大量标注数据上预训练后,迁移到仅有少量标注的目标域进行像素级分割。现有方法主要分为两类:基于元学习的少样本分割方法(如 HSNet、PATNet)和基于 adapter 的参数高效微调方法。
现有痛点:CD-FSS 面临两大核心挑战——(1) 源域与目标域之间的巨大领域鸿沟 (domain gap),模型难以从源域泛化到目标域;(2) 目标域数据极度稀缺,模型难以适配新领域分布。现有领域解耦方法(如 DIFEX, CCSA)依赖额外的领域对抗损失或正则化来分离领域无关/特定特征,增加了训练复杂度且效果受限。
核心矛盾:基于损失的领域解耦器需要显式的领域标签来约束解耦程度,但这种约束是人为设计的,未能利用网络结构本身的内在能力。同时,adapter 在文献中长期仅被视为参数高效微调工具,其隐含的领域解耦特性从未被发掘。
本文目标 (a) 如何在不添加领域解耦损失的前提下实现领域信息分离? (b) adapter 结构化解耦在什么条件下成立? (c) 结构化解耦引入的过拟合风险如何控制?
切入角度:作者通过 CKA 相似度分析发现一个关键现象——将 adapter 以残差连接方式插入冻结骨干网络的深层后,adapter 会自然吸收领域特定信息,同时引导后续编码器学习领域无关特征。这一现象与 adapter 的设计结构(位置 + 连接方式)密切相关,而非训练损失。
核心 idea:adapter 天然就是领域信息解耦器——利用其结构特性(残差连接 + 深层位置)提出 DFN,配合 SAM-SVN 约束奇异值防止过拟合,实现无需额外损失的结构化领域解耦。
方法详解¶
整体框架¶
输入为 support 图像(带标注)和 query 图像,经过冻结的 ResNet-50 骨干网络提取多层级特征金字塔 \(\{(F_l^q, F_l^s)\}_{l=1}^L\)。DFN 以残差连接方式附加到骨干网络深层特征上,输出导航后的特征图 \(\{NF_l^q, NF_l^s\}\)。support 特征经 mask 处理后与 query 特征计算 4D 余弦相关张量,送入 4D 卷积金字塔编码器和 2D 解码器获得分割结果。
训练分两阶段: - 源域训练:DFN 与编码器/解码器联合训练,DFN 通过结构特性自然吸收源域特定信息,引导模型学习领域无关知识;同时用 SAM-SVN 约束 DFN 避免过拟合。 - 目标域微调:冻结编码器/解码器,仅微调 DFN 以学习目标域特定特征,融合领域特定与领域无关特征完成跨域对齐。
关键设计¶
-
Adapter 作为解耦器的发现与验证:
- 功能:通过系统实验揭示 adapter 天然具有领域信息解耦能力的条件。
- 核心思路:使用 CKA (Centered Kernel Alignment) 相似度度量,在 Pascal 源域和四个目标域之间分析 adapter 附加前后骨干网络和编码器输出的领域相似度变化。实验表明附加 adapter 后,骨干输出的 CKA 降低(更多领域特定信息被 adapter 吸收),编码器输出的 CKA 升高(编码器更关注领域无关信息)。
- 设计动机:验证了两个关键条件——位置:adapter 必须插入冻结骨干的深层(深层特征更语义化、更领域特定);结构:必须使用残差连接(串行连接会阻断通用特征向后传递)。设计结构不影响解耦能力(传统 conv 和 LoRA 均可)。这一发现开辟了"结构化解耦"新范式。
-
Domain Feature Navigator (DFN):
- 功能:作为结构化领域解耦器,吸收领域特定信息并引导模型关注领域无关知识。
- 核心思路:DFN 实现为 \(1 \times 1\) 卷积,参数 \(\alpha \in \mathbb{R}^{C \times C \times 1 \times 1}\),输入/输出通道数相同。通过残差连接附加到骨干深层特征上:\(NF_l^s = \hat{F_l^s} + \mathcal{N}_\alpha(\hat{F_l^s})\),\(NF_l^q = F_l^q + \mathcal{N}_\alpha(F_l^q)\)。在低、中、高层特征上分别连接 DFN 以保证语义一致性。导航后的特征通过余弦相似度构建 4D 相关张量:\(C_l(m,n) = \text{ReLU}(\frac{NF_l^q(m) \cdot NF_l^s(n)}{\|NF_l^q(m)\| \|NF_l^s(n)\|})\)。
- 设计动机:相比基于损失的解耦器(需要额外领域标签和对抗训练),DFN 利用网络结构固有特性实现解耦,更简洁且无需额外损失函数。预训练骨干冻结 + adapter 从头训练的差异,自然引导 adapter 捕获源域特定的信息。
-
SAM-SVN (Sharpness-Aware Minimization on Singular Values of Navigator):
- 功能:约束 DFN 在源域训练中的过拟合程度,防止学习样本特定而非领域特定的知识。
- 核心思路:对 DFN 权重矩阵进行 SVD 分解 \(\alpha' = USV^T\),仅对奇异值矩阵 \(S\) 施加 SAM 扰动:\(\epsilon = \rho \nabla L(S) / \|\nabla L(S)\|_2\),用扰动后的参数 \(\hat{\alpha} = U(S+\epsilon)V^T\) 重新计算梯度并更新。因为奇异值控制不同表征的重要性,仅约束奇异值既能平坦化损失面(防止过拟合),又不妨碍 DFN 通过 \(U, V\) 矩阵继续吸收领域信息。
- 设计动机:纯结构化解耦存在隐患——DFN 可能学到过于复杂的模式,过拟合到源域具体样本而非领域分布(如 Table 5 所示 loss fluctuation 从 0.398 升至 0.521)。直接对全部参数施加 SAM 会限制领域信息的吸收。受 SAM-ON 和 BSP 启发,作者提出仅约束奇异值这一折中方案——奇异值对过拟合最为敏感,约束它们即可控制过拟合程度,而 \(U, V\) 矩阵保留了领域信息吸收能力。
损失函数 / 训练策略¶
- 损失函数:标准二元交叉熵 (BCE) 损失,无额外领域解耦损失
- 源域训练:骨干 (ResNet-50, ImageNet 预训练) 冻结,DFN + 编码器 + 解码器联合训练,Adam 优化器,学习率 1e-3,SAM 超参 \(\rho = 0.5\),图像尺寸 400x400
- 目标域微调:仅微调 DFN,50 次迭代,不同数据集学习率不同(FSS-1000: 1e-3, Deepglobe: 5e-1, ISIC/ChestX: 5e-3)
实验关键数据¶
主实验¶
在 CD-FSS 标准 benchmark 上的 1-shot 和 5-shot MIoU 对比(源域 Pascal,4 个目标域):
| 方法 | 骨干 | FSS-1000 (1/5) | Deepglobe (1/5) | ISIC (1/5) | ChestX (1/5) | 平均 (1/5) |
|---|---|---|---|---|---|---|
| HSNet (ICCV-21) | Res-50 | 77.53/80.99 | 29.65/35.08 | 31.20/35.10 | 51.88/54.36 | 47.57/51.38 |
| PATNet (ECCV-22) | Res-50 | 78.59/81.23 | 37.89/42.97 | 41.16/53.58 | 66.61/70.20 | 56.06/61.99 |
| ABCDFSS (CVPR-24) | Res-50 | 74.60/76.20 | 42.60/45.70 | 45.70/53.30 | 79.80/81.40 | 60.67/64.97 |
| APSeg (CVPR-24) | ViT-base | 79.71/81.90 | 35.94/39.98 | 45.43/53.98 | 84.10/84.50 | 61.30/65.09 |
| APM (NeurIPS-24) | Res-50 | 79.29/81.83 | 40.86/44.92 | 41.71/51.76 | 78.25/82.81 | 60.03/65.18 |
| DFN (Ours) | Res-50 | 80.73/85.80 | 45.66/47.98 | 36.30/51.13 | 85.21/90.34 | 61.98/68.81 |
| DFN (Ours) | ViT-base | 82.97/85.72 | 39.45/47.67 | 50.36/58.53 | 83.18/87.14 | 63.99/69.77 |
Res-50 backbone 下 1-shot 平均超越先前 SOTA (APSeg) 2.69%,5-shot 超越 4.68%。ViT-base 下更进一步,1-shot 达 63.99%。
消融实验¶
| 配置 | 1-shot MIoU | 5-shot MIoU | 说明 |
|---|---|---|---|
| Baseline (HSNet) | 47.57 | 51.38 | 无 DFN,无 SAM |
| + DFN | 59.89 | 66.59 | DFN 贡献 +12.32% (1-shot) |
| + DFN + SAM | 60.65 | 67.74 | 对全 DFN 参数施加 SAM |
| + DFN + SAM-SVN | 61.98 | 68.81 | 仅对奇异值施加 SAM,最优 |
SAM 扰动目标对比:
| SAM 施加模块 | 1-shot MIoU | 5-shot MIoU |
|---|---|---|
| Enc.+Dec.+DFN | 60.04 | 66.98 |
| 仅 DFN | 60.65 | 67.74 |
| 仅 SVN (奇异值) | 61.98 | 68.81 |
关键发现¶
- DFN 贡献最大:引入 DFN 带来 +12.32% 的巨大提升,验证了结构化解耦的核心价值
- SAM-SVN 比全参数 SAM 更优:对全部 DFN 参数施加 SAM 会抑制领域信息的吸收,仅约束奇异值刚好平衡了过拟合控制和领域吸收
- 稳定性提升:SAM-SVN 将性能波动 (best-worst) 从 Only DFN 的 1.76/2.33/3.12/2.03 降至 0.94/1.53/1.68/1.18
- DFN 使用方式:在目标域移除 DFN 仍可提升 baseline(56.85 vs 47.57),但保留并微调 DFN 效果最好(61.98)
- 在 ChestX 上表现尤为突出:1-shot 从 baseline 51.88 提升到 85.21 (+33.33%),说明在领域差距大的场景下结构化解耦优势更明显
亮点与洞察¶
-
"Adapter 即解耦器"的新视角:这是一个非常优雅的发现——adapter 在被设计为参数高效微调工具时,其结构特性(残差连接 + 深层插入 + 从头训练 vs 冻结骨干)天然导致领域信息的分离。这种"免费"获得的解耦能力无需额外损失,简化了整个方法流程。
-
系统的实验验证方法论:作者没有直接提出方法,而是先通过控制变量实验(位置 x 结构 x 连接方式)系统验证了什么条件下 adapter 能作为解耦器,再基于发现设计方法。这种"现象发现 - 机理解释 - 方法设计"的研究范式值得学习。
-
SAM-SVN 的精妙设计:通过 SVD 分离后仅对奇异值做 SAM 扰动,既控制过拟合又保留领域吸收能力。这一思路可迁移到任何需要"部分正则化"的场景——通过 SVD 识别出对过拟合最敏感的参数子空间,仅约束该子空间。
-
理论支撑:作者从 Information Bottleneck 理论角度解释了为什么 adapter(低容量 \(\theta_g \ll \theta_f\))倾向于吸收领域特定信息,以及残差结构如何通过梯度流分离实现互补学习目标。
局限与展望¶
- 作者承认的局限:仅验证了 few-shot 场景,未探索 many-shot 设置的适用性
- ISIC 数据集表现不稳定:Res-50 下 ISIC 1-shot 仅 36.30%,显著低于 APSeg 的 45.43%,说明在某些特定领域差异下结构化解耦可能不如基于损失的方法
- 超参数敏感:不同目标域的微调学习率差异巨大(1e-3 到 5e-1),需要针对每个目标域调参
- DFN 结构简单:仅用 \(1\times1\) 卷积实现,容量有限,更复杂的 adapter 结构(如多层 MLP adapter)可能进一步提升性能
- 缺少与 foundation model 的对比:未与 SAM (Segment Anything) 等大模型在 CD-FSS 设置下做充分比较
相关工作与启发¶
- vs PATNet: PATNet 通过频域风格迁移增强来弥合领域差距,是外部数据增强的路线;本文从模型结构内部实现解耦,两条路线互补,可结合。
- vs ABCDFSS: ABCDFSS 利用多种 adapter 配置进行跨域适配,但未发现 adapter 的解耦特性;本文的发现可直接改进 ABCDFSS 的 adapter 设计策略。
- vs APSeg: APSeg 基于 ViT 通过 prompt 进行适配,与本文 adapter 路线不同但目标一致。本文的 DFN+SAM-SVN 在 ViT 上也适用并取得更好效果。
- vs 领域无关学习 (DIFEX): DIFEX 通过额外正则化项最大化不变特征和领域特定特征,是 loss-based 解耦的代表;本文证明仅靠结构即可解耦,且效果更好。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "adapter 即解耦器"的发现非常新颖,从本质上重新理解了 adapter 的角色
- 实验充分度: ⭐⭐⭐⭐ 四个目标域的标准 benchmark + 详尽消融 + CKA/MMD 分析 + 可视化,但 ISIC 结果偏弱略显不足
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,从现象到解释到方法的逻辑链非常流畅,图表设计直观
- 价值: ⭐⭐⭐⭐ 发现具有广泛适用性(不限于 CD-FSS),SAM-SVN 技术可迁移,但 ISIC 不稳定和超参敏感影响实用价值
相关论文¶
- [ICML 2025] Self-Disentanglement and Re-Composition for Cross-Domain Few-Shot Segmentation
- [AAAI 2026] Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-Domain Few-Shot Segmentation
- [CVPR 2025] Dual-Agent Optimization framework for Cross-Domain Few-Shot Segmentation
- [CVPR 2025] The Devil is in Low-Level Features for Cross-Domain Few-Shot Segmentation
- [ICCV 2025] Object-level Correlation for Few-Shot Segmentation