Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning¶

会议: ICCV 2025
arXiv: 2508.03102
代码: github.com/tianjiao-j/CCA
领域: 多模态视觉语言模型
关键词: 少样本学习, CLIP, 因果解纠缠, 独立成分分析, 跨模态对齐

一句话总结¶

提出 Causal CLIP Adapter (CCA)，利用 ICA 对 CLIP 视觉特征进行因果解纠缠，并通过单向微调文本分类器和双向交叉注意力增强跨模态对齐，在 11 个基准数据集上实现了少样本分类 SOTA。

研究背景与动机¶

问题定义¶

少样本学习（FSL）需要模型在有限标注数据下快速适应新任务。当前主流方法大多基于 CLIP 等预训练视觉-语言模型进行迁移学习，但直接使用 CLIP 提取的特征面临一个核心挑战：特征是纠缠的。

已有方法的不足¶

纠缠特征导致过拟合：CLIP 视觉编码器输出的特征 \(\mathbf{z}'\) 是真实潜变量 \(\mathbf{z}\) 的线性混合。现有方法（如 Tip-Adapter、TaskRes 等）直接使用这些纠缠特征，分类器需要隐式学习一个密集权重矩阵 \(\mathbf{W}_{\text{dense}} = \mathbf{W}_{\text{unmix}} \cdot \mathbf{W}'_{\text{sparse}}\)，参数量大，在少样本场景下容易过拟合

仅依赖 Cache Model 不够：Tip-Adapter 等方法仅在图像模态内构建相似度匹配，未充分利用 CLIP 的跨模态对齐能力

Prompt-tuning 方法训练开销大：CoOp 等需要通过 CLIP 文本编码器反向传播，训练时间显著高于 adapter 方法

核心动机¶

理论研究（Daunhawer et al.）证明 CLIP 等多模态对比学习模型可以将真实潜变量恢复到线性变换的程度，即 \(\mathbf{z}' = \mathbf{A}\mathbf{z} + \mathbf{c}\)。既然线性变换已知存在，那么可以直接用 ICA 去除它，获得解纠缠特征，从而大幅减少下游任务需要学习的参数。

核心 idea：先用 ICA 解纠缠 CLIP 特征降低参数量，再通过跨模态对齐弥补解纠缠带来的模态内对齐损失。

方法详解¶

整体框架¶

CCA 包含三个核心组件：(1) 基于 FastICA 的解纠缠 Cache Model，用于模态内图像匹配；(2) 微调的 CLIP 文本分类器，实现单向跨模态对齐；(3) 交叉注意力融合模块，实现双向跨模态信息交互。三者的 logits 通过线性组合得到最终预测。

关键设计¶

1. FastICA 解纠缠¶

功能：从 ImageNet 子集中提取 unmixing matrix \(\mathbf{U} \in \mathbb{R}^{C \times M}\)，对所有 CLIP 视觉特征进行解纠缠
核心思路：CLIP 特征在超球面上，\(\mathbf{z}' = \mathbf{A}\mathbf{z} + \mathbf{c}\)，ICA 通过最大化非高斯性恢复独立潜变量。解纠缠后的 Cache Keys：

\[\mathbf{F}_{\text{cache}}^d = \mathbf{F}_{\text{cache}} \mathbf{U} \mathbf{W}_c, \quad \mathbf{F}_{\text{query}}^d = \mathbf{F}_{\text{query}} \mathbf{U}\]

其中 \(\mathbf{W}_c\) 是可训练的 cache adapter（初始化为单位矩阵，加 \(\ell_1\) 正则化诱导稀疏性）

设计动机：解纠缠后分类器只需学习稀疏权重矩阵，参数量大幅减少，有效缓解少样本过拟合。\(\mathbf{U}\) 从 ImageNet 提取后所有数据集共用，计算开销小

2. 单向跨模态对齐（文本分类器微调）¶

功能：微调 CLIP 文本分类器 \(\mathbf{W}_t \in \mathbb{R}^{N \times C}\)（由类别名经文本编码器获得），使文本特征更好地对齐图像特征
核心思路：以较小的学习率（0.0001）微调文本权重，保留 CLIP 先验知识的同时增强下游对齐
设计动机：ICA 解纠缠可能破坏 CLIP 原有的模态内对齐，通过文本分类器微调可以从跨模态角度补偿这种损失

3. 双向交叉注意力融合¶

功能：通过交叉注意力机制生成两种混合特征——图像增强的文本分类器和文本增强的图像特征
核心公式：

\[\mathbf{W}_t^* = (\text{softmax}(\mathbf{W}_t \mathbf{F}_{\text{query}}^\top) \mathbf{F}_{\text{query}})^\top\]

\[\mathbf{F}_{\text{query}}^* = \text{softmax}(\mathbf{F}_{\text{query}} \mathbf{W}_t^\top) \mathbf{W}_t\]

最终跨模态 logits：\(\mathbf{l}_2 = \mathbf{F}_{\text{query}} \mathbf{W}_t^\top + \gamma \mathbf{F}_{\text{query}} \mathbf{W}_t^* + \eta \mathbf{F}_{\text{query}}^* \mathbf{W}_t^\top\)

设计动机：单向微调只能从文本到图像对齐，双向交叉注意力允许两个模态相互补充信息，捕捉更丰富的语义关系

损失函数 / 训练策略¶

损失函数：标准交叉熵损失 + cache adapter 的 \(\ell_1\) 正则化
最终 logits：\(\mathbf{l} = \alpha \mathbf{l}_1 + \mathbf{l}_2\)
训练细节：SGD 优化，cache adapter 学习率 0.001，文本分类器学习率 0.0001，大多数数据集仅训练 20 个 epoch（EuroSAT 100 个）
超参数：\(\alpha, \gamma, \eta, \beta\) 在验证集上通过网格搜索优化

实验关键数据¶

主实验¶

11 个数据集的平均分类准确率（16-shot）：

方法	类型	ImageNet	11数据集均值
Zero-shot CLIP	零样本	60.33	-
CoOp	Prompt-tuning	62.95	-
Tip-Adapter	无训练	61.80	-
Tip-Adapter-F	微调	65.45	-
CCA	无训练	63.00	-
CCA-FT	微调	66.04	最优

CCA-FT 在所有 11 个数据集的所有 shot 设定上均超越 Tip-Adapter-F，且在平均准确率上超越所有 SOTA 方法。

消融实验¶

配置	1-shot	4-shot	16-shot	说明
完整模型	66.00	72.10	77.60	所有组件齐全
无 ICA	64.94	70.34	75.95	解纠缠贡献最大
固定 cache adapter	65.16	70.78	75.75	模态内对齐重要
固定文本分类器	65.10	71.32	77.00	文本微调有帮助但较小
无融合特征	65.81	72.02	77.43	交叉注意力补充较小

关键发现¶

ICA 解纠缠是最关键组件：移除后所有 shot 数下性能下降最大（16-shot 下降 1.65%）
分布外鲁棒性强：在 ImageNet-V2 和 ImageNet-Sketch 上，CCA-FT 均优于所有对比方法
对高斯噪声和对抗攻击鲁棒：CCA/CCA-FT 在两种设定下大幅优于 Tip-Adapter/-F（对抗攻击下 16-shot 准确率 35.48% vs 33.21%）
计算效率高：20 epoch，4.9 min 训练（vs CoOp 的 200 epoch，7.5h），且准确率更高
跨骨干网络一致有效：在 ResNet50/101、ViT-B/16、ViT-B/32 上均优于 Tip-Adapter-F

亮点与洞察¶

理论驱动的实用方法：从因果解纠缠理论出发，利用 ICA 的线性解纠缠能力解决 FSL 中的过拟合问题，理论与实践结合紧密
单/双向对齐互补设计：意识到解纠缠会破坏模态内对齐，通过两种互补的跨模态对齐机制弥补，整体设计逻辑严谨
unmixing matrix 跨数据集共用：从 ImageNet 提取一次即可用于所有下游数据集，实用性强
稀疏性归纳偏置：\(\ell_1\) 正则化诱导 cache adapter 稀疏，与解纠缠表示的理论预期一致

局限与展望¶

ICA 假设的局限：假设至多一个潜变量为高斯分布，在某些数据分布下可能不满足
超球面约束：CLIP 特征在超球面上，ICA 的有效维度少一维（\(M-1\)），可能损失信息
文本分类器设计简单：仅使用线性微调，未探索更灵活的文本适配方式
未探索更大规模 CLIP：仅在 ResNet50/101 和 ViT-B 上验证，未测试 ViT-L 等更大骨干
交叉注意力训练/测试不一致：训练时双向均用 query 特征，测试时反向路径改用 cache 特征

评分¶

新颖性: ⭐⭐⭐⭐ — 将因果解纠缠理论引入 CLIP 少样本学习是新颖的角度，ICA + 跨模态对齐的组合设计合理
实验充分度: ⭐⭐⭐⭐ — 11 个数据集 + 多个 shot 设定 + OOD 测试 + 噪声/对抗鲁棒性 + 消融研究，实验全面
写作质量: ⭐⭐⭐⭐ — 理论动机清晰，方法描述详细，图示直观
价值: ⭐⭐⭐⭐ — 提供了一种轻量高效的 CLIP adapter 方法，理论洞察对社区有启发价值