跳转至

Instance-wise Supervision-level Optimization in Active Learning

会议: CVPR 2025
arXiv: 2503.06517
代码: https://github.com/matsuo-shinnosuke/ISOAL
领域: 其他/主动学习
关键词: 主动学习, 弱监督, 标注预算优化, 实例级优化, 多层级标注

一句话总结

本文提出 ISO (Instance-wise Supervision-level Optimization) 框架,在主动学习中不仅选择哪些样本标注,还为每个样本自动决定最优的标注级别(精确标签 vs 粗标签),通过价值-成本比(VCR)和多样性感知的批次选择算法,在固定预算约束下达到比传统主动学习高10%+的准确率。

研究背景与动机

领域现状:主动学习(AL)通过迭代选择最有价值的样本进行标注来最大化标注效率。主流方法要么基于不确定性(如Margin、Entropy)选择模型最"困惑"的样本,要么基于多样性(如Coreset)覆盖数据分布。另一条路线是弱监督学习(WSL),用粗粒度但低成本的标签(如用"麻雀"代替"家麻雀")来降低标注费用。

现有痛点:(1) 传统AL方法只考虑单一标注级别(精确标签),没有利用"弱标签更便宜"这一事实来获得更多数据;(2) 唯一结合AL和弱监督的方法APFWA虽然能动态调整弱/精确标注的比例,但比例调整是随机采样后估计的全局参数——不考虑具体哪个样本更适合弱标注、哪个更需要精确标注。

核心矛盾:在固定预算约束下,多标注一个弱标签(便宜)还是精确标签(贵但信息量大)——这个决策不应该是全局统一的,而应该因样本而异。有些样本的不确定性来自超类内部的混淆(需要精确标签),有些来自跨超类的混淆(弱标签就够了)。

本文目标 设计一个同时优化"选哪些样本"和"每个样本用什么标注级别"的统一框架,在固定预算下最大化标注效率。

切入角度:将监督级别优化视为资源分配问题——每个样本在弱/精确标注下各有一个"性价比"(VCR),选择一批VCR高且多样的样本进行标注。

核心 idea:为每个未标注样本计算弱标注和精确标注的性价比(VCR = 模型改进值 × 不确定性 / 成本),然后用行列式点过程的近似算法选择兼具高价值和多样性的批次。

方法详解

整体框架

ISO 在每轮主动学习中执行以下步骤:(1) 对未标注池中的每个样本计算两个 VCR(精确标注和弱标注各一个);(2) 将每个样本表示为 VCR 加权的特征向量;(3) 用基于k-means++的批次选择算法,在预算约束下选择使被选向量围成面积最大的样本集合;(4) 被选样本根据向量类型分配到精确标注池或弱标注池;(5) 模型用两个池的数据训练后进入下一轮。

关键设计

  1. 价值-成本比 (VCR) 估计:

    • 功能:为每个样本在每种标注级别下评估"性价比"
    • 核心思路:VCR 定义为 \(v_f(x) = M_f \cdot u_f(x) / C_f\)\(v_w(x) = M_w \cdot u_w(x) / C_w\)。其中 \(C_f, C_w\) 是标注成本(预设),\(u_f(x), u_w(x)\) 是样本在精确/弱分类头上的不确定性(用百分位归一化的边际值),\(M_f, M_w\) 是单位数据带来的模型改进。模型改进 \(M\) 的估计方式是:将当前标注数据分成 \(K=5\) 份,逐份增加训练后评估性能曲线,取加权平均斜率再除以数据量得到每样本贡献值
    • 设计动机:不确定性告诉我们"这个样本有多需要标注",模型改进告诉我们"这种类型的标注整体还能带来多少提升",成本告诉我们"这个标注多贵"。三者结合给出全面的性价比评估。百分位归一化可以防止异常值扭曲尺度
  2. 多样性感知的批次选择:

    • 功能:在预算约束下选择兼具高VCR和多样性的样本批次
    • 核心思路:每个样本被表示为两个向量(弱标注版和精确标注版):\(v_f(x) \cdot \tilde{f}(x)\)\(v_w(x) \cdot \tilde{f}(x)\),其中 \(\tilde{f}(x)\) 是归一化特征向量。目标是选择一组向量使它们围成的"面积"最大(等价于最大化Gram矩阵行列式)。这让高VCR和高多样性都会增大目标值。选择过程如下:用k-means++式的顺序采样,每步选择概率正比于到已选向量最近距离的平方,直到预算 \(B\) 耗尽。选到精确版向量则扣 \(C_f\),选到弱版则扣 \(C_w\)
    • 设计动机:贪心地选最高VCR会导致选到一堆相似样本(因为不确定性高的样本往往聚集)。行列式最大化是DPP(行列式点过程)的优化目标,天然平衡"高值"和"多样"。k-means++作为DPP的高效近似算法,可以在预算约束下工作。向量的模(VCR)和方向(特征)同时编码了价值和位置信息
  3. 监督级别的自动决策:

    • 功能:将"选什么标注级别"的决策统一到向量选择过程中
    • 核心思路:关键洞察是——同一样本的两个向量(精确版和弱版)方向相同但模不同(VCR不同)。在k-means++采样过程中,被选中的是哪个版本的向量就决定了标注级别。如果弱标注VCR更高(即弱标签性价比更好),弱版向量更长,被选中概率更大。如果这个样本对精确标注的不确定性特别高,精确版向量可能更长
    • 设计动机:这把"选样本"和"选标注级别"两个本来独立的优化问题优雅地合并为一个向量选择问题,避免了需要先确定比例再分别选样本的次优两阶段策略

损失函数 / 训练策略

采用两阶段训练:先用弱标注数据训练特征提取器和弱分类头,再用精确标注数据训练精确分类头。特征提取器 \(f\) 是 ResNet18 编码器,两个分类头各一个线性层。损失函数为交叉熵。

实验关键数据

主实验

CIFAR-100 (弱标注成本 \(C_w = 1/2\)),分类准确率(%):

方法 Round 1 Round 3 Round 5
Random ~15 ~22 ~28
Margin ~16 ~24 ~30
BADGE ~17 ~25 ~31
APFWA ~18 ~28 ~36
ISO (Ours) ~20 ~32 ~42

ISO 在 Round 5 比传统AL方法高 10%+,比APFWA高约 6%。传统方法需要5轮(预算5000)才达到30%,ISO仅需3轮(预算3000)。

消融实验

配置 CIFAR-100 Round 5 CUB200 Round 5 说明
Full ISO ~42% ~34% 完整模型
w/o uncertainty ~38% ~28% 去掉实例级不确定性,VCR只有全局模型改进
w/o diversity ~39% ~31% 贪心选最高VCR,不考虑多样性

不同弱标注成本的影响

\(C_w\) CIFAR-100 Round 5 CUB200 Round 5
1/2 ~42% ~34%
1/4 ~48% ~38%
1/8 ~55% ~43%

关键发现

  • 弱标注越便宜,ISO 的优势越大\(C_w = 1/8\) 时准确率比 \(C_w = 1/2\) 高13%+,因为更低的弱标注成本允许在同样预算下标注更多样本
  • 实例级不确定性在CUB200上特别重要(去掉后掉6%),因为鸟类分类中细粒度区分更需要针对每个样本判断是否需要精确标签
  • 多样性在CIFAR-100上贡献更大,因为类别多(100类)且分布广,不考虑多样性容易集中选某个混淆区域
  • 与固定比例的AL+弱监督基线对比:最优比例会随 \(C_w\) 变化(\(C_w=1/2\)时60/40最优,\(C_w=1/8\)时20/80最优)。ISO自动找到合适比例,始终达到或超过最优固定比例
  • 传统只用精确标签的AL方法在引入弱标签后都显著提升,证明弱监督对AL的价值

亮点与洞察

  • 向量表示的统一优化:将"选样本"和"选标注级别"两个决策统一到同一个向量空间的选择问题中,是本文最优雅的设计。同一样本有两个向量(弱/精确版),被选中的版本直接决定标注级别,无需额外的超参数或两阶段策略
  • VCR 中模型改进的在线估计:通过增量划分训练数据来估计"每多一个数据的边际收益",虽然简单但有效地捕获了不同标注类型当前的边际贡献,且计算开销可控(只需在K=5个子集上训练)
  • 可扩展到更多标注级别:虽然论文只用弱/精确两个级别,但框架可以自然扩展。例如在分割任务中可以有像素级标注、bbox标注、图像级标注三个级别,每个级别一个向量

局限与展望

  • 仅在分类任务上验证:论文承认ISO的概念适用于分割(强监督=mask vs 弱监督=bbox)等任务,但未实验验证。分割任务中弱标签带来的信息增量和分类任务可能很不同
  • 标注级别限制为两个:虽然可以扩展,但当前框架的VCR估计方法(增量训练)在更多级别时计算成本会快速增长
  • 模型改进估计的稳定性\(M_f, M_w\) 的估计依赖于小验证集和增量训练,在数据量很小的早期轮次可能不稳定。论文用3次重复取平均缓解,但根本问题未解决
  • 超类结构的预设:弱标签的定义(超类)需要预先给定。在CUB200中作者基于命名后缀定义了70个超类,在实际应用中超类结构可能不trivially available
  • 数据集规模较小:CIFAR-100和CUB200均为小规模数据集,在大规模数据(如ImageNet)上的表现未知

相关工作与启发

  • vs APFWA: APFWA也结合弱/精确标注,但只做全局比例优化(如"本轮40%弱标注"),不考虑哪个样本更适合哪种标注。ISO在实例级做优化,始终优于APFWA
  • vs BADGE: BADGE在梯度空间结合不确定性和多样性,是单标注级别的SOTA。ISO在BADGE的基础上增加了标注级别维度,进一步提升效率
  • vs Coreset: 纯多样性方法,不考虑不确定性。ISO的向量表示方法巧妙地将Coreset的多样性选择和Margin的不确定性选择统一起来

评分

  • 新颖性: ⭐⭐⭐⭐ 实例级标注级别优化是新问题定义,向量统一表示很优雅
  • 实验充分度: ⭐⭐⭐ 两个数据集+多种消融,但缺少大规模数据集和非分类任务
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,算法描述详细,图示直观
  • 价值: ⭐⭐⭐⭐ 为主动学习引入新维度(标注级别),有实际应用价值

相关论文