Self-Disentanglement and Re-Composition for Cross-Domain Few-Shot Segmentation¶

会议: ICML 2025
arXiv: 2506.02677
代码: 无
领域: 图像分割
关键词: 跨域少样本分割, ViT特征解耦, 正交空间解耦, 交叉模式比较, 自适应融合权重

一句话总结¶

本文发现跨域少样本分割（CD-FSS）中基于距离比较的方法存在特征纠缠问题，其根源在于ViT各层输出在距离计算时的等权交叉匹配，进而提出通过自解耦（Self-Disentanglement）和重组合（Re-Composition）的方式，学习ViT组件间的比较权重来解决该问题。

研究背景与动机¶

跨域少样本语义分割（CD-FSS）旨在将源域数据集的知识迁移到仅有少量标注的未知目标域数据集。现有方法通常通过比较支持集和查询集之间的特征距离来进行mask预测。

核心痛点：作者发现这种广泛采用的方法存在一个特征纠缠问题——模型倾向于将源域的多种模式（如翅膀和身体）绑定在一起，使得每种模式都难以单独迁移。例如，当模型将"翅膀+身体"两个模式纠缠后，如果目标域图像仅有翅膀但身体与训练数据不同（如另一种蝙蝠），模型就会无法捕捉翅膀，导致分割错误。

核心矛盾：CD-FSS场景中源域和目标域之间存在显著的域差距和语义差距，迁移纠缠的模式比迁移解耦的模式困难得多。

切入角度：作者利用ViT的可解释性研究发现，残差连接和一致的空间尺寸使得每个ViT组件（MSA、MLP）的输出位于同一特征空间中。因此，ViT的最终输出可以自然地看作所有组件的累积组合。基于这一结构分解，作者发现不同层捕获不同的语义模式，而距离计算时所有层间的交叉比较被赋予了相同的权重——有意义的比较（翅膀vs翅膀）和无意义的比较（身体vs翅膀）被等权混合，导致了特征纠缠。

CKA验证：作者通过CKA相似度实验验证了这一假设。不同层之间的域相似性差异很大：层级匹配（对角线）的平均CKA远高于最终输出的CKA（如FSS-1000上0.6107 vs 0.4288）。更有趣的是，简单移位（Top-12平均0.8126）甚至超过对角线匹配，暗示可学习的交叉匹配可能优于朴素的逐层匹配。

核心idea：通过学习ViT组件间所有比较的权重，自解耦ViT的输出特征并交叉重组合，降低无意义比较的权重，提升有意义比较的权重。

方法详解¶

整体框架¶

整体框架名为SDRC（Self-Disentanglement and Re-Composition），流程如下：

从ViT不同层提取$L$组支持/查询特征，沿通道维度拼接
送入正交空间解耦（OSD）模块进行权重分配和语义解耦
OSD输出送入交叉模式比较（CPC）模块，解耦后的模式交叉比较生成$L^2$组score maps
源域训练使用均匀权重组合score maps，目标域微调引入自适应融合权重（AFW）动态学习比较权重
最终预测经双线性插值恢复到原图尺寸后取argmax

关键设计¶

正交空间解耦（OSD）模块：将各层特征拼接后投影到低维正交空间，显式地解耦不同语义模式并分配权重。

具体流程：将$L$组特征沿通道拼接得到$F_{con}^* \in \mathbb{R}^{Ld \times n \times n}$，通过三层结构处理： - 全连接层$W_{in} \in \mathbb{R}^{Ld \times r}$降维到低秩空间 - 卷积层$W_{orth} \in \mathbb{R}^{r \times r \times 1 \times 1}$施加正交约束 - 全连接层$W_{out} \in \mathbb{R}^{r \times Ld}$映射回原空间并拆分

正交正则化损失（将$F_{orth}$reshape为$\mathbb{R}^{r \times n^2}$后计算）： $$L_{orth} = \|F_{orth} F_{orth}^T - I\|_F^2$$

设计动机：通过正交约束促进各通道特征之间的独立性，实现语义解耦。互信息实验验证了效果——使用OSD后支持/查询特征间的MI显著降低（如Chest X-ray从0.91降至0.65）。rank $r$默认设为8以平衡性能与参数量。源域训练时$W_{in}$和$W_{out}$与编码器联合训练；目标域微调时仅微调紧凑的$W_{orth}$（仅64个参数），其余冻结。

交叉模式比较（CPC）模块：将解耦后的支持集原型和查询特征进行交叉比较，生成$L^2$组score maps进行重组合。

首先通过Mask Average Pooling从支持特征中获取$L$组前景原型$P_{fg} \in \mathbb{R}^{L \times d \times 1 \times 1}$和背景原型$P_{bg} \in \mathbb{R}^{L \times d \times 1 \times 1}$。然后对$L$组query特征与$L$组原型进行交叉比较： $$C_{bg/fg} = distance(F^q, P_{bg/fg}), \quad C = concat(C_{bg}, C_{fg})$$

其中$C$被reshape为$\mathbb{R}^{L^2 \times 2 \times n \times n}$，2代表背景和前景。默认使用余弦相似度： $$distance_{cos} = \frac{F^q \cdot P_{bg/fg}}{\|F^q\| \|P_{bg/fg}\|}$$

设计动机：由于ViT的自注意力机制具有动态性，不同层提取的特征可能存在正确的跨层语义对应关系，因此交叉比较比逐位匹配更有效（实验：59.50% vs 55.14%）。

自适应融合权重（AFW）：一个极轻量参数矩阵$W_{AFW} \in \mathbb{R}^{L^2 \times 2}$（ViT-B仅288个参数），动态学习不同目标域的重组合权重。

源域训练时用均匀权重：$C_{fusion} = \frac{\sum_{l=0}^{L^2} C(l)}{L^2}$

目标域微调时引入AFW：$C_{fusion} = \frac{W_{AFW} \otimes C}{L^2}$

设计动机：AFW参数量极小，如果在源域与编码器联合训练会过拟合源数据（实验验证：源域训练61.01% < 直接目标域引入63.22%）。可视化显示AFW在不同域学到了截然不同的权重分布，且前景/背景权重自发呈互斥趋势。

损失函数 / 训练策略¶

总损失函数为标准BCE损失加正交正则化： $$L = L_{BCE} + \lambda L_{orth}$$

其中$\lambda = 0.1$，在0.01-0.5范围内性能变化小于1%，调参不敏感。

两阶段训练策略： - 源域训练：在PASCAL VOC 2012+SBD上训练，OSD与ViT编码器联合优化，score maps用均匀权重组合 - 目标域微调：冻结$W_{in}$和$W_{out}$，仅微调$W_{orth}$和AFW；由于无法访问query标签，将支持集同时作为query计算$L_{BCE}$和$L_{orth}$

实验关键数据¶

主实验¶

数据集	指标	本文(1-shot)	之前SOTA	提升
FSS-1000	mIoU	80.31	79.71 (APSeg)	+0.60
Deepglobe	mIoU	43.15	42.60 (ABCDFSS)	+0.55
ISIC	mIoU	46.57	45.43 (APSeg)	+1.14
Chest X-ray	mIoU	82.86	84.10 (APSeg)	-1.24
平均	mIoU	63.22	61.30 (APSeg)	+1.92

数据集	指标	本文(5-shot)	之前SOTA	提升
FSS-1000	mIoU	82.55	81.90 (APSeg)	+0.65
Deepglobe	mIoU	46.83	50.12 (DRA)	-3.29
ISIC	mIoU	55.02	53.98 (APSeg)	+1.04
Chest X-ray	mIoU	84.79	84.50 (APSeg)	+0.29
平均	mIoU	67.30	65.42 (DRA)	+1.88

注：本文使用ViT-B encoder-only结构（FLOPs 18.86G），APSeg同样使用ViT-B但采用基于SAM的encoder-decoder架构，参数量和计算量远大于本文。

消融实验¶

配置	1-shot平均mIoU	5-shot平均mIoU	说明
Baseline	49.88	53.64	无任何模块
+CPC	59.50	62.68	+9.62%，最大提升来源
+CPC+AFW	61.32	65.22	AFW再提升约1.8%
+CPC+OSD	60.75	64.45	OSD再提升约1.3%
+CPC+AFW+OSD(完整)	63.22	67.30	三模块协同最优

距离度量	Baseline(1-shot)	Ours(1-shot)	Baseline(5-shot)	Ours(5-shot)
Euclidean	48.92	62.49	53.07	66.53
Dot	49.18	62.75	53.03	66.58
EMD	50.02	63.37	53.23	67.01
Cosine	49.88	63.22	53.64	67.30

OSD rank	2	4	8	16	32	64
1-shot mIoU	60.39	61.73	63.22	63.25	63.43	62.61

关键发现¶

CPC是核心贡献：引入CPC后mIoU提升9.62%（1-shot），说明交叉比较对于解耦纠缠特征至关重要
交叉比较优于逐位匹配：跨层比较（59.50%）比同层比较（55.14%）高出4.36%，验证了ViT层间存在有效的跨层语义对应
OSD確实降低了互信息：在4个目标域上，使用OSD后支持/查询特征间的MI均有下降
AFW学到域相关的权重分布：可视化显示不同目标域的AFW热力图差异很大，最大权重不一定在对角线上，且前景/背景权重自发互斥
AFW不应在源域训练：源域训练（61.01%）反而不如直接在目标域引入（63.22%）
正交损失权重不敏感：$\lambda$在0.01-0.5范围内mIoU变化不足1%
计算效率最优：FLOPs仅18.86G，低于PATNet(22.63G)、HSNet(20.11G)、SSP(18.97G)
所有距离度量均有效：无论使用何种度量，方法均大幅超越baseline（+12-14%）
多背景原型提升有限：引入聚类获取多背景原型仅从63.22%微升至63.59%，不值得额外开销

亮点与洞察¶

从ViT结构解释特征纠缠：利用ViT残差结构的累积组合特性，将特征纠缠归因为层间交叉匹配的等权处理——$S = \sum_i \sum_j (Layer_s^i \cdot Layer_q^j)$中有意义和无意义的比较被等权混合。分析不仅提供直觉解释，还通过CKA实验严格验证
"自解耦"设计：与传统特征解耦方法需要额外VAE/GAN网络不同，本文利用ViT本身的结构特性实现解耦，不引入额外分支网络，优雅简洁
理论分析：通过$\mathcal{H}$-divergence域适应理论论证了方法同时降低源域风险$\epsilon_\mathcal{S}(h)$和域差距$d_\mathcal{H}(\mathcal{S}, \mathcal{T})$的机制
极致轻量：OSD微调仅需64个参数（$W_{orth}$），AFW仅288个参数，整体FLOPs低于所有对比方法
AFW前景/背景互斥现象：在Deepglobe和ISIC数据集上自适应学到的前景和背景权重呈互斥关系，这是一个有趣的自发涌现现象

局限与展望¶

Chest X-ray上1-shot低于APSeg：在胸部X光域上（82.86% vs 84.10%），APSeg的SAM-based架构仍有优势
仅在ViT架构上深入分析：分析强依赖ViT的残差累加结构，对CNN或非标准残差结构的推广有待探索
源域单一：仅使用PASCAL VOC作为源域，未探索多源域或更大规模预训练数据的设置
目标域微调仍依赖标注：虽然是少样本设定，但支持集标注获取成本在某些领域仍然高昂
rank选择较为固定：rank=8是全局最优的经验值，不同目标域可能需要不同rank
可扩展方向：与DINOv2、SAM2等更强预训练模型结合；多类别场景下CPC和AFW设计需适配

评分¶

新颖性: ⭐⭐⭐⭐ 从ViT结构分解角度分析特征纠缠是新颖视角，CKA验证和理论分析增强了说服力；但解耦+重组合的宏观思路在迁移学习中并不罕见
实验充分度: ⭐⭐⭐⭐⭐ 消融实验极为全面——模块消融、距离度量比较、rank分析、正交权重敏感性、比较策略对比、互信息验证、CKA域相似性、AFW可视化、计算效率对比、理论分析
写作质量: ⭐⭐⭐⭐ 论文逻辑从问题发现→数学分析→CKA验证→方法设计的推进自然流畅，但公式排版略显密集
价值: ⭐⭐⭐⭐ 在CD-FSS取得新SOTA且方法轻量高效；ViT结构解耦视角具有可推广性