Enhancing CLIP Robustness via Cross-Modality Alignment¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2510.24038
代码: 无
领域: 多模态VLM / 对抗鲁棒性
关键词: CLIP, 对抗鲁棒性, 最优传输, 跨模态对齐, 子空间投影
一句话总结¶
提出COLA——一个training-free的框架,通过将对抗扰动后的图像特征投影到文本特征张成的子空间来消除非语义噪声,再用最优传输(OT)在分布层面细粒度对齐图文特征,在14个零样本分类基准上平均提升6.7%的对抗鲁棒准确率,同时维持干净样本性能。
背景与动机¶
CLIP等视觉语言模型在零样本分类上表现出色,但面对对抗扰动(如PGD、CW攻击)时非常脆弱——ImageNet上只需ε=1/255的扰动就能把准确率从62%打到1%。现有防御方法分三类:(1) 对抗微调(TeCoA/PMG/FARE)——需要额外训练且严重损害干净样本准确率;(2) prompt优化——同样需要训练;(3) 测试时防御(TTE/TTC)——推理延迟大或需要更强的反击预算。
这些方法都忽视了一个根本问题:CLIP的图文特征天然就存在模态间隙(modality gap)。由于对比学习的全局匹配范式,图像和文本特征分布在嵌入空间的不同区域。对抗扰动会急剧放大这种错位——不仅全局对齐被破坏(图像特征偏离文本语义原型),局部结构也会崩溃(相近图像特征散乱丧失一致性)。
核心问题¶
如何在无需训练、无需修改模型架构的前提下,有效修复对抗攻击造成的图文跨模态错位,从而提升CLIP的零样本对抗鲁棒性?
核心挑战有两层:(1) 对抗扰动将图像特征推离了语义相关的文本空间方向(全局错位);(2) 即使特征空间统一了,由于图像包含背景等与LLM生成的文本描述无关的视觉线索,局部语义仍然存在不匹配(局部错位)。
方法详解¶
整体框架¶
COLA(CrOss-modaLity Alignment)是一个测试时推理框架,pipeline分三步:
- 全局特征投影:对文本特征矩阵做SVD提取主成分子空间,将对抗图像特征投影到该子空间上,滤除非语义方向的扰动
- 局部分布建模:将每张图像和每个类别建模为离散分布——图像通过多视角增广产生N个支撑点,类别通过LLM生成M个文本描述作为支撑点
- OT对齐分类:用最优传输计算每个图像分布到每个类别分布的最小传输代价,选传输代价最小的类别作为预测
输入是对抗图像,输出是分类标签。整个过程不需要任何训练或模型修改。
关键设计¶
-
文本子空间投影(Global Feature Alignment):将所有K类×M个文本描述的特征排成矩阵Z∈R^{d×KM},做SVD取top-C=256个主成分得到U_C,定义投影Π(x̂) = U_C U_C^T x̂。核心洞察:对抗扰动δ可以分解为子空间内分量δ_∥和子空间外分量δ_⊥,投影操作直接消除δ_⊥,从而恢复特征与文本的对齐。作者理论证明投影后cosine相似度畸变严格减小。
-
基于熵的重要性加权:对图像的N个增广视角和文本的M个描述,不是简单均匀加权,而是用预测熵来衡量每个支撑点的重要性。熵低 → 预测置信度高 → 权重大。这使得更可靠的视角/描述在OT匹配中贡献更大。
-
投影代价矩阵的OT分类:关键创新在于将子空间投影嵌入到OT的代价矩阵中:C_y^Π(n,m) = 1 - cos(Π(x̂_n), z_y^m)。这让全局对齐和局部语义对齐在统一OT框架内联合优化。分类规则变为 y = argmin_y d_OT(P(x), Q_y(z); C_y^Π)。
理论保证¶
论文提供了两个重要理论结果:
- 投影保持成对相似度:投影后cosine相似度畸变Δ_Π ≤ Δ,说明投影不会损害特征间的语义关系
- OT分类器margin增大:γ(C^Π) ≥ γ(C),即投影代价矩阵下OT分类器的决策margin不小于原始代价矩阵,意味着更好的泛化能力
实验关键数据¶
9个数据集 + PGD/CW攻击(ViT-B/32, ε=1/255)¶
| 方法 | 类型 | 9-datasets Clean | 9-datasets Robust (PGD) | 9-datasets Robust (CW) |
|---|---|---|---|---|
| CLIP | baseline | 59.5 | 2.4 | 3.5 |
| TeCoA | 微调 | 33.9 | 15.6 | 14.6 |
| PMG | 微调 | 35.2 | 16.1 | 15.1 |
| FARE | 微调 | 44.8 | 10.0 | 10.9 |
| TTC | 测试时 | 55.1 | 30.8 | 29.4 |
| COLA | 测试时 | 61.9 | 45.3 | 40.9 |
ImageNet及变体(PGD攻击)¶
| 数据集 | CLIP Robust | TTC Robust | COLA Robust | 提升(vs TTC) |
|---|---|---|---|---|
| ImageNet | 1.1 | 40.0 | 50.0 | +10.0 |
| ImageNet-V2 | 0.0 | 15.4 | 22.7 | +7.3 |
| ImageNet-Sketch | 0.8 | 34.4 | 43.2 | +8.8 |
| ImageNet-A | 6.1 | 48.5 | 55.6 | +7.1 |
| ImageNet-R | 5.0 | 24.4 | 29.8 | +5.4 |
| 平均 | 2.6 | 32.5 | 40.3 | +7.7 |
在微调模型上叠加COLA(PGD攻击,9-datasets Robust)¶
| 基础模型 | 原始 Robust | +TTC | +COLA |
|---|---|---|---|
| TeCoA | 15.6 | 17.9 | 27.3 |
| PMG | 16.1 | 18.5 | 29.1 |
| FARE | 10.0 | 25.6 | 45.3 |
不同backbone(PGD攻击)¶
| 模型 | ImageNet Robust (TTC) | ImageNet Robust (COLA) |
|---|---|---|
| ViT-B/16 | 20.1 | 32.1 |
| ViT-L/14 | 21.9 | 57.7 |
推理效率(ImageNet, ViT-B/32)¶
| 方法 | 时间 | Clean | Robust |
|---|---|---|---|
| CLIP | 10min | 62.1 | 1.1 |
| TTC | 40min | 51.7 | 40.0 |
| COLA | 28min | 62.8 | 50.0 |
消融实验要点¶
- 投影代价矩阵vs原始代价矩阵:OT w. C^Π比OT w. C在ImageNet PGD robust上高3.7%(50.0 vs 46.3),说明子空间投影对OT代价的改善是有效的
- 增广数量:图像增广N超过5后边际收益递减;文本描述M超过50后饱和。方法对增广超参不敏感
- SVD主成分数C:C<200时性能随C增大稳步提升,C>200后clean准确率饱和,robust准确率提升缓慢。最终取C=256
- 相似度分布可视化:对抗攻击后图文相似度大幅下降,投影后相似度恢复到接近原始水平
- 大攻击预算ε=4/255:其他方法robust准确率几乎归零,COLA仍维持可观的鲁棒性(比TTC高50%+),展现出极强的鲁棒韧性
亮点¶
- Training-free且即插即用:无需训练、无需改架构,可直接叠加到任何CLIP微调模型之上,实际部署友好度极高
- 优雅的理论支撑:子空间投影减少cosine畸变 + 投影代价矩阵增大OT margin,理论和实验高度一致
- 全局+局部双层对齐的统一框架:子空间投影解决全局错位,OT分布匹配解决局部语义不匹配,且两者通过投影代价矩阵自然融合在一起
- 在大ε攻击下优势碾压:ε=4/255时其他方法几乎失效而COLA仍有效,说明方法机制上的本质优势
- 可复用的思路:将文本特征作为"干净参考子空间"来净化对抗图像特征的思路,可迁移到其他跨模态鲁棒性任务
局限性 / 可改进方向¶
- 继承预训练偏差:文本子空间编码了数据集特定先验,对未见过的语言/视觉域泛化可能受限
- 对自适应攻击的抵抗力未知:论文主要评估标准攻击(PGD/CW/AutoAttack),如果攻击者知道COLA的投影机制,可能设计自适应攻击绕过
- SVD计算开销:需要对所有类别的文本特征做SVD,类别数极大时(如ImageNet-21K)开销可能显著
- 仅限分类任务:框架设计围绕零样本分类,检测/分割等下游任务需要额外设计
- 增广策略较朴素:图像增广用简单随机裁剪/翻转,更强的增广策略可能进一步提升效果
与相关工作的对比¶
- vs TTC (Test-Time Counterattacks):TTC通过生成反攻击来防御,需要更强的反击预算且推理慢(40min vs COLA 28min)。COLA在所有设置下robust准确率显著超过TTC,同时维持更好的clean准确率
- vs TeCoA/PMG/FARE(对抗微调方法):这些方法需要额外训练且严重损害clean性能。COLA不需要训练,且可以作为即插即用模块叠加在这些微调模型之上进一步提升性能
- vs 通用OT对齐方法(PLOT/AWT):这些方法在训练时优化OT对齐。COLA首次将OT引入测试时对抗防御场景,且通过投影代价矩阵实现了比原始OT更大的决策margin
启发与关联¶
- 子空间投影思路可用于VLM幻觉缓解:VLM的幻觉问题某种程度上也是视觉特征"偏离"文本语义空间,类似的投影净化思路可能有效
- 与
ideas/multimodal_vlm/20260317_cross_granularity_unified_vfm.md中分层对齐的思路有共鸣——COLA在特征空间层面做"全局+局部"对齐,而该idea在ViT不同层做多粒度对齐 - OT + VLM的组合值得深入:OT天然适合建模两个模态间的细粒度对应关系,未来可拓展到图文检索、VQA等任务的鲁棒性提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 子空间投影+OT对齐的组合解决对抗鲁棒性问题有新意,但各组件本身并不新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 14个数据集、多种攻击方式、多种backbone、叠加微调模型、大攻击预算、完整消融、运行时间对比,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论证明完整,但公式符号较多初读有一定门槛
- 价值: ⭐⭐⭐⭐ Training-free且性能优异,对实际部署有直接意义;NeurIPS Spotlight实至名归