CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection¶
会议: CVPR 2026
arXiv: 2511.18519
代码: https://github.com/mihara-bot/CHIPS (开源)
领域: 医学影像 / 数据选择 / CLIP适配
关键词: CLIP领域适配, 数据选择, 曲率感知影响函数, InfoNCE, 持续预训练
一句话总结¶
从数据中心视角重新审视 CLIP 领域适配,提出 CHIPS,为每个图文对计算融合曲率感知牛顿对齐(忠实性)、JL sketching压缩曲率估计(可扩展性)、可学习性+领域相关性权重(保留性)三因素的效用分数,用30%数据匹配全数据集CPT、10%数据超越50%数据CPT,在17个医学+31个通用基准上达到选择SOTA。
研究背景与动机¶
- 领域现状:CLIP等视觉-语言模型在通用域表现优秀,但在医学影像等垂直领域性能大幅下降。适配方法分两类:模型中心(改微调策略/参数化方式,如PEFT、LoRA)和数据中心(在大规模领域数据上做持续预训练CPT,如PubMedCLIP、BioMedCLIP)。
- 现有痛点:CPT路线依赖海量领域数据(数百万到上亿对),数据收集成本高昂;且不加选择地使用所有数据实际会引入冗余/低效样本,反而可能损害学习效果。数据本身作为CPT效果的核心因素被严重忽视。
- 核心矛盾:现有数据归因方法(影响函数、TracIn、TRAK等)都是为单塔模型的有监督分类设计的,直接用于CLIP会系统性地错排样本,原因有三:(A) CLIP双编码器产生非块对角的二阶曲率,块对角近似会忽略跨模态耦合;(B) InfoNCE中每个样本的梯度依赖整个batch的softmax归一化,影响不是per-example可加的;(C) 投影头和温度参数主导早期相似度分布的变化,全参数影响计算大量浪费。
- 本文要解决什么? 设计一个CLIP专用的数据选择器,准确评估每个训练样本对目标域适配的贡献,用最少数据实现最佳CPT效果。
- 切入角度:利用"一步下降"视角,在CLIP的端点子空间(投影头+温度参数)中计算牛顿方向对齐分数,同时通过InfoNCE感知的曲率估计和JL sketching保证可扩展性。
- 核心idea一句话:在CLIP投影头子空间中做曲率感知的牛顿方向对齐打分,配合可学习性和领域相关性权重,精选高价值样本替代大规模盲目CPT。
方法详解¶
整体框架¶
输入是一个大的目标域训练池 \(\mathcal{D}_{\text{pool}}\)(如BIOMEDICA的医学图文对),输出是选出top-n个最有价值的样本用于CPT。对每个候选样本 \(z\),CHIPS计算三个分量相乘的最终效用分数 \(\mathcal{I}_{\text{CHIPS}}(z) = \hat{A}_\alpha(z) \cdot w_L(z) \cdot w_R(z)\),然后按分数排序选top-n进行持续预训练。
关键设计¶
- 曲率感知代理牛顿对齐分数 \(A(z)\):
- 做什么:衡量在样本 \(z\) 上做一步梯度更新后,目标域评估损失的预期下降量
- 核心思路:在CLIP端点子空间 \(\vartheta = \{W_v, W_t, \tau\}\)(两个投影头+温度)中计算 \(A(z) = \mathbf{g}_\vartheta(z)^\top \mathbf{M}^{-1} \mathbf{u}_\vartheta\),其中 \(\mathbf{g}_\vartheta(z)\) 是样本梯度,\(\mathbf{u}_\vartheta\) 是评估集平均梯度,\(\mathbf{M}\) 是曲率代理矩阵。
- 设计动机:(1) 端点子空间保留了全参数对齐的排序信息(Theorem 1证明了Spearman相关性0.83);(2) 只需计算投影头的梯度,维度远小于全参数,计算量大幅降低;(3) 牛顿方向比简单梯度内积更准确,因为它考虑了参数空间的几何结构。
-
与之前方法的区别:TracIn只做一阶梯度内积(忽略曲率),TRAK用随机投影但不考虑InfoNCE的特殊结构。
-
InfoNCE感知曲率估计:
- 做什么:构建曲率代理矩阵 \(\mathbf{M}\),捕捉InfoNCE中负样本引起的跨样本耦合
- 核心思路:将曲率分解为自身二阶矩 \(\Phi_{\text{pos}}\)(正样本对角项)和跨样本二阶矩 \(\Phi_{\text{neg}}\)(负样本非对角项),混合权重 \(\alpha\) 控制耦合强度:\(\mathbf{M} = (1-\alpha)\Phi_{\text{pos}} + \alpha\Phi_{\text{neg}} + \lambda\mathbf{I}\)。用JL sketching将高维矩阵压缩到 \(k\) 维实现近线性时间/内存复杂度。
- 设计动机:InfoNCE的softmax归一化使每个样本的梯度依赖整个batch的负样本,忽略这种耦合会系统性地错排样本。Theorem 2给出了sketching引入的 \(O(1/k)\) 方差和曲率近似偏差的精确分解。
-
与之前方法的区别:标准影响函数使用Gauss-Newton近似(仅正样本),完全忽略了负样本引起的非对角曲率。
-
可学习性权重 \(w_L(z)\):
- 做什么:区分"已经学会的"和"处于决策边界的"样本
- 核心思路:\(w_L(z) = (1-p_{\text{corr}}(z))(1+\sigma(-m(z)))\),其中 \(p_{\text{corr}}\) 是正确匹配概率(高则已掌握),\(m(z)\) 是最难负样本的margin(小则在决策边界)。让模型聚焦于"快要对但还没完全对"的样本。
-
设计动机:纯对齐分数无法区分已解决的简单样本和具有学习价值的边界样本。
-
目标域相关性权重 \(w_R(z)\):
- 做什么:软性地偏好与目标域评估集分布相近的样本
- 核心思路:计算候选样本的图像/文本embedding与评估集均值embedding的cosine相似度,通过sigmoid映射为权重 \(w_R(z) \in [0.27, 0.73]\),是软权重而非硬过滤。
- 设计动机:防止选择偏离目标域太远的样本,同时避免硬过滤导致的信息损失,平衡适配与保留。
损失函数 / 训练策略¶
- 选出top-n样本后,使用标准对称InfoNCE做CPT
- 训练策略本身不变,核心创新在于数据选择而非训练方式
实验关键数据¶
主实验(17个医学基准,r=10%~50%)¶
| 方法 | r=10% Avg | r=20% Avg | r=30% Avg | Full Dataset |
|---|---|---|---|---|
| Random | 24.78 | 25.00 | 26.28 | 31.51 |
| CLIPScore | 24.16 | 20.01 | 19.01 | — |
| Dot | 25.32 | 26.39 | — | — |
| TracIn | 26.46 | 26.63 | — | — |
| TRAK | 25.19 | 24.54 | — | — |
| CHIPS | 27.03 | 28.20 | 31.47 | 31.51 |
- CHIPS r=30% (31.47) 匹配 Full Dataset (31.51)
- CHIPS r=10% (27.03) 超越 Full Dataset 50% 随机子集
消融实验¶
| 配置 | 医学Avg | 说明 |
|---|---|---|
| Full CHIPS | 27.03 | 完整模型 (r=10%) |
| w/o 曲率 (α=0) | 25.32 | 退化为Dot,忽略负样本耦合 |
| w/o 可学习性 | 26.15 | 无法区分边界样本 |
| w/o 域相关性 | 25.89 | 选择偏离目标域 |
| w/o JL sketching | 27.01 | 精度几乎不变但内存开销大 |
通用域保留(31个基准)¶
| 方法 | r=10% 分类 | r=10% 检索 |
|---|---|---|
| Full CPT | 49.72 | 24.20 |
| Random | 52.21 | 29.28 |
| CHIPS | 47.88 | 25.71 |
- 在所有保留比例下,CHIPS的通用域性能下降最小
关键发现¶
- 曲率混合系数 \(\alpha\) 是关键:\(\alpha > 0\) 显著优于 \(\alpha = 0\)(纯对角),证实了InfoNCE负样本耦合不可忽略
- JL sketching的维度 \(k\):\(k=512\) 已足够,更高维度边际收益很小,验证了理论的 \(O(1/k)\) 收敛
- Spearman相关性 0.83:端点子空间对齐分数与全参数分数高度一致,验证了子空间代理的合理性
- 10%数据即可超越50%随机CPT:数据质量 >> 数据数量
亮点与洞察¶
- CLIP端点子空间的洞察非常精妙:发现投影头+温度参数主导了CPT早期的相似度分布变化,因此只需在这个小子空间做影响函数计算即可。Spearman 0.83的实验验证让人信服。这个思路可以推广到其他双塔模型(如检索模型)的数据选择。
- 将影响函数与InfoNCE结构结合是技术上最大的贡献:通过正负样本二阶矩的\(\alpha\)混合捕捉对比学习的特殊曲率结构,这在之前的数据归因工作中完全被忽视。
- "30%数据=全量数据"的发现对实际应用价值巨大:在医疗领域数据昂贵且敏感的背景下,这意味着可以用精选子集替代大规模数据收集。
局限性 / 可改进方向¶
- 效用分数的计算仍需一次前向/反向传播来获取所有候选样本的梯度,前置计算开销不小(虽然比全量CPT节省)
- 实验主要在医学域验证,其他垂直领域(如遥感、工业检测)的泛化性有待验证
- 目标域相关性权重依赖评估集均值embedding,当目标域内部异质性大时,单一均值可能不够
- 理论分析假设了端点梯度与全参数梯度的线性关系,在高度非线性区域可能不成立
相关工作与启发¶
- vs TRAK [Park et al., 2023]: TRAK用随机投影+EK二阶近似,但不考虑InfoNCE的负样本耦合和CLIP的端点结构。CHIPS专门为CLIP设计,在医学域系统性超越TRAK。
- vs TracIn [Pruthi et al., 2020]: TracIn只做一阶梯度追踪,完全忽略曲率。CHIPS用牛顿方向替代梯度方向,排序更准确。
- vs BioMedCLIP [Zhang et al., 2023]: BioMedCLIP用大规模医学数据做CPT,CHIPS证明精选30%数据即可匹配其效果。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将数据归因方法专门适配CLIP的对比学习结构,端点子空间+InfoNCE曲率混合都是新颖贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 17个医学+31个通用基准,多种选择比例,消融全面
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,但符号密集度较高,需要仔细阅读
- 价值: ⭐⭐⭐⭐⭐ 对数据高效的CLIP领域适配有直接指导意义,30%≈Full的结论很有实践价值
- 新颖性: ⭐⭐⭐⭐ 曲率感知影响函数用于 CLIP 数据选择是深思熟虑的设计
- 实验充分度: ⭐⭐⭐⭐⭐ 48 个基准的大规模系统验证
- 写作质量: ⭐⭐⭐⭐ 理论和实验动机清晰
- 价值: ⭐⭐⭐⭐ 为数据高效的基础模型适配提供了有力工具