CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection¶

会议: CVPR 2026
arXiv: 2511.18519
代码: https://github.com/mihara-bot/CHIPS (开源)
领域: 医学影像 / 数据选择 / CLIP适配
关键词: CLIP领域适配, 数据选择, 曲率感知影响函数, InfoNCE, 持续预训练

一句话总结¶

从数据中心视角重新审视 CLIP 领域适配，提出 CHIPS，为每个图文对计算融合曲率感知牛顿对齐（忠实性）、JL sketching压缩曲率估计（可扩展性）、可学习性+领域相关性权重（保留性）三因素的效用分数，用30%数据匹配全数据集CPT、10%数据超越50%数据CPT，在17个医学+31个通用基准上达到选择SOTA。

研究背景与动机¶

领域现状：CLIP等视觉-语言模型在通用域表现优秀，但在医学影像等垂直领域性能大幅下降。适配方法分两类：模型中心（改微调策略/参数化方式，如PEFT、LoRA）和数据中心（在大规模领域数据上做持续预训练CPT，如PubMedCLIP、BioMedCLIP）。
现有痛点：CPT路线依赖海量领域数据（数百万到上亿对），数据收集成本高昂；且不加选择地使用所有数据实际会引入冗余/低效样本，反而可能损害学习效果。数据本身作为CPT效果的核心因素被严重忽视。
核心矛盾：现有数据归因方法（影响函数、TracIn、TRAK等）都是为单塔模型的有监督分类设计的，直接用于CLIP会系统性地错排样本，原因有三：(A) CLIP双编码器产生非块对角的二阶曲率，块对角近似会忽略跨模态耦合；(B) InfoNCE中每个样本的梯度依赖整个batch的softmax归一化，影响不是per-example可加的；(C) 投影头和温度参数主导早期相似度分布的变化，全参数影响计算大量浪费。
本文要解决什么？ 设计一个CLIP专用的数据选择器，准确评估每个训练样本对目标域适配的贡献，用最少数据实现最佳CPT效果。
切入角度：利用"一步下降"视角，在CLIP的端点子空间（投影头+温度参数）中计算牛顿方向对齐分数，同时通过InfoNCE感知的曲率估计和JL sketching保证可扩展性。
核心idea一句话：在CLIP投影头子空间中做曲率感知的牛顿方向对齐打分，配合可学习性和领域相关性权重，精选高价值样本替代大规模盲目CPT。

方法详解¶

整体框架¶

输入是一个大的目标域训练池 \(\mathcal{D}_{\text{pool}}\)（如BIOMEDICA的医学图文对），输出是选出top-n个最有价值的样本用于CPT。对每个候选样本 \(z\)，CHIPS计算三个分量相乘的最终效用分数 \(\mathcal{I}_{\text{CHIPS}}(z) = \hat{A}_\alpha(z) \cdot w_L(z) \cdot w_R(z)\)，然后按分数排序选top-n进行持续预训练。

关键设计¶

曲率感知代理牛顿对齐分数 \(A(z)\):
做什么：衡量在样本 \(z\) 上做一步梯度更新后，目标域评估损失的预期下降量
核心思路：在CLIP端点子空间 \(\vartheta = \{W_v, W_t, \tau\}\)（两个投影头+温度）中计算 \(A(z) = \mathbf{g}_\vartheta(z)^\top \mathbf{M}^{-1} \mathbf{u}_\vartheta\)，其中 \(\mathbf{g}_\vartheta(z)\) 是样本梯度，\(\mathbf{u}_\vartheta\) 是评估集平均梯度，\(\mathbf{M}\) 是曲率代理矩阵。
设计动机：(1) 端点子空间保留了全参数对齐的排序信息（Theorem 1证明了Spearman相关性0.83）；(2) 只需计算投影头的梯度，维度远小于全参数，计算量大幅降低；(3) 牛顿方向比简单梯度内积更准确，因为它考虑了参数空间的几何结构。
与之前方法的区别：TracIn只做一阶梯度内积（忽略曲率），TRAK用随机投影但不考虑InfoNCE的特殊结构。
InfoNCE感知曲率估计:
做什么：构建曲率代理矩阵 \(\mathbf{M}\)，捕捉InfoNCE中负样本引起的跨样本耦合
核心思路：将曲率分解为自身二阶矩 \(\Phi_{\text{pos}}\)（正样本对角项）和跨样本二阶矩 \(\Phi_{\text{neg}}\)（负样本非对角项），混合权重 \(\alpha\) 控制耦合强度：\(\mathbf{M} = (1-\alpha)\Phi_{\text{pos}} + \alpha\Phi_{\text{neg}} + \lambda\mathbf{I}\)。用JL sketching将高维矩阵压缩到 \(k\) 维实现近线性时间/内存复杂度。
设计动机：InfoNCE的softmax归一化使每个样本的梯度依赖整个batch的负样本，忽略这种耦合会系统性地错排样本。Theorem 2给出了sketching引入的 \(O(1/k)\) 方差和曲率近似偏差的精确分解。
与之前方法的区别：标准影响函数使用Gauss-Newton近似（仅正样本），完全忽略了负样本引起的非对角曲率。
可学习性权重 \(w_L(z)\):
做什么：区分"已经学会的"和"处于决策边界的"样本
核心思路：\(w_L(z) = (1-p_{\text{corr}}(z))(1+\sigma(-m(z)))\)，其中 \(p_{\text{corr}}\) 是正确匹配概率（高则已掌握），\(m(z)\) 是最难负样本的margin（小则在决策边界）。让模型聚焦于"快要对但还没完全对"的样本。
设计动机：纯对齐分数无法区分已解决的简单样本和具有学习价值的边界样本。
目标域相关性权重 \(w_R(z)\):
做什么：软性地偏好与目标域评估集分布相近的样本
核心思路：计算候选样本的图像/文本embedding与评估集均值embedding的cosine相似度，通过sigmoid映射为权重 \(w_R(z) \in [0.27, 0.73]\)，是软权重而非硬过滤。
设计动机：防止选择偏离目标域太远的样本，同时避免硬过滤导致的信息损失，平衡适配与保留。

损失函数 / 训练策略¶

选出top-n样本后，使用标准对称InfoNCE做CPT
训练策略本身不变，核心创新在于数据选择而非训练方式

实验关键数据¶

主实验（17个医学基准，r=10%~50%）¶

方法	r=10% Avg	r=20% Avg	r=30% Avg	Full Dataset
Random	24.78	25.00	26.28	31.51
CLIPScore	24.16	20.01	19.01	—
Dot	25.32	26.39	—	—
TracIn	26.46	26.63	—	—
TRAK	25.19	24.54	—	—
CHIPS	27.03	28.20	31.47	31.51

CHIPS r=30% (31.47) 匹配 Full Dataset (31.51)
CHIPS r=10% (27.03) 超越 Full Dataset 50% 随机子集

消融实验¶

配置	医学Avg	说明
Full CHIPS	27.03	完整模型 (r=10%)
w/o 曲率 (α=0)	25.32	退化为Dot，忽略负样本耦合
w/o 可学习性	26.15	无法区分边界样本
w/o 域相关性	25.89	选择偏离目标域
w/o JL sketching	27.01	精度几乎不变但内存开销大

通用域保留（31个基准）¶

方法	r=10% 分类	r=10% 检索
Full CPT	49.72	24.20
Random	52.21	29.28
CHIPS	47.88	25.71

在所有保留比例下，CHIPS的通用域性能下降最小

关键发现¶

曲率混合系数 \(\alpha\) 是关键：\(\alpha > 0\) 显著优于 \(\alpha = 0\)（纯对角），证实了InfoNCE负样本耦合不可忽略
JL sketching的维度 \(k\)：\(k=512\) 已足够，更高维度边际收益很小，验证了理论的 \(O(1/k)\) 收敛
Spearman相关性 0.83：端点子空间对齐分数与全参数分数高度一致，验证了子空间代理的合理性
10%数据即可超越50%随机CPT：数据质量 >> 数据数量

亮点与洞察¶

CLIP端点子空间的洞察非常精妙：发现投影头+温度参数主导了CPT早期的相似度分布变化，因此只需在这个小子空间做影响函数计算即可。Spearman 0.83的实验验证让人信服。这个思路可以推广到其他双塔模型（如检索模型）的数据选择。
将影响函数与InfoNCE结构结合是技术上最大的贡献：通过正负样本二阶矩的\(\alpha\)混合捕捉对比学习的特殊曲率结构，这在之前的数据归因工作中完全被忽视。
"30%数据=全量数据"的发现对实际应用价值巨大：在医疗领域数据昂贵且敏感的背景下，这意味着可以用精选子集替代大规模数据收集。

局限性 / 可改进方向¶

效用分数的计算仍需一次前向/反向传播来获取所有候选样本的梯度，前置计算开销不小（虽然比全量CPT节省）
实验主要在医学域验证，其他垂直领域（如遥感、工业检测）的泛化性有待验证
目标域相关性权重依赖评估集均值embedding，当目标域内部异质性大时，单一均值可能不够
理论分析假设了端点梯度与全参数梯度的线性关系，在高度非线性区域可能不成立

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将数据归因方法专门适配CLIP的对比学习结构，端点子空间+InfoNCE曲率混合都是新颖贡献
实验充分度: ⭐⭐⭐⭐⭐ 17个医学+31个通用基准，多种选择比例，消融全面
写作质量: ⭐⭐⭐⭐ 理论推导严谨，但符号密集度较高，需要仔细阅读
价值: ⭐⭐⭐⭐⭐ 对数据高效的CLIP领域适配有直接指导意义，30%≈Full的结论很有实践价值
新颖性: ⭐⭐⭐⭐ 曲率感知影响函数用于 CLIP 数据选择是深思熟虑的设计
实验充分度: ⭐⭐⭐⭐⭐ 48 个基准的大规模系统验证
写作质量: ⭐⭐⭐⭐ 理论和实验动机清晰
价值: ⭐⭐⭐⭐ 为数据高效的基础模型适配提供了有力工具