Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding¶

会议: ECCV 2024
arXiv: 2312.05328
代码: 无
领域: 自监督/数据高效学习
关键词: 主动学习, 数据选择, 大规模预训练, CLIP, 计算效率

一句话总结¶

本文提出 ClassAct / ActiveCLIP 方法，利用小型代理模型为训练数据计算"可学习性"分数，优先选择对大模型训练最有价值的数据，在 JFT 分类和 CLIP 多模态预训练中分别减少 46% 和 51% 的训练更新量，同时实现端到端计算正收益。

领域现状: 大规模视觉和语言模型的训练遵循 power-law scaling，即模型性能的增量改进需要数量级的计算量增加。当前训练普遍采用均匀采样策略。
现有痛点: 已有主动学习方法虽然能提升数据效率，但未能同时满足三个条件：(a) 跨模型和任务通用，(b) 可扩展到大规模数据集，(c) 在考虑数据选择开销后仍能节省总计算量（compute-positive）。
核心矛盾: 基于损失的优先采样（优先难样本或易样本）各有局限——优先难样本会纳入噪声数据，优先易样本则忽视了学习者当前状态。同时，精确的数据评分需要大模型推理，成本过高。
本文目标: 设计一种同时满足通用性、可扩展性和计算正收益的主动数据选择算法。
切入角度: 利用"可学习性"（learnability）概念——优先选择参考模型容易解决但当前学习者难以解决的样本，即 \(s^{learn}(\mathbf{x}_i|\theta^t, \theta^*) = \ell(\mathbf{x}_i|\theta^t) - \ell(\mathbf{x}_i|\theta^*)\)。
核心 idea: 用远小于学习者模型的代理模型（甚至小 1000 倍）来近似计算可学习性分数，仍能获得接近大模型评分的训练加速效果，从而实现计算正收益。

输入为大规模数据集（如 JFT-300M 或 ALIGN），通过在线批量选择（Online Batch Selection）框架运行。每步先均匀采样一个 super-batch，用小型 actor 模型计算可学习性分数，按分数优先采样出 sub-batch 用于更新大的 learner 模型。

可学习性评分（Learnability Scoring）:
- 功能: 为每个数据点计算优先级分数
- 核心思路: 分数 \(s^{learn} = \ell(\mathbf{x}_i|\theta^{online}) - \ell(\mathbf{x}_i|\theta^{ref})\)，其中 online 模型和 learner 同步训练，ref 模型预训练后固定。高分表示数据"可学习但尚未学会"，通过 Softmax 转化为采样概率
- 设计动机: 结合"难样本"和"干净样本"两个正交目标，自动过滤噪声数据和已学会的数据
小模型代理评分（Proxy Model Scoring）:
- 功能: 将评分模型缩小到 learner 的 1/50 甚至 1/1000
- 核心思路: 引入第三个 online 模型，与 reference 模型同架构同规模（如 ViT-Ti），替代 learner 进行评分。评分成本 \(F_{act} = 2F_{ref}\)，可随 ref 模型缩小
- 设计动机: RHO loss 需要 learner 推理（成本与 learner 成正比），无法实现 compute-positive。实验发现可学习性评分对模型规模鲁棒，ViT-Ti 评分仍能为 ViT-L 提供 26% 加速
ActiveCLIP / ActiveSigLIP 扩展:
- 功能: 将框架应用于多模态对比学习
- 核心思路: actor 损失使用图文嵌入点积 \(\ell_{act} = -\mathbf{z}_i^{im} \cdot \mathbf{z}_i^{txt}\)，learner 使用标准对比损失。在干净小数据集（LTIP）上训练 reference 模型，用于指导大噪声数据集（ALIGN）的训练
- 设计动机: 多模态数据集噪声更严重，用干净数据训练的 reference 能更有效地过滤噪声