Effortless Active Labeling for Long-Term Test-Time Adaptation¶

会议: CVPR 2025
arXiv: 2503.14564
代码: https://github.com/flash1803/EATTA
领域: 其他
关键词: 测试时适应、主动学习、伪标签、梯度归一化、长期适应

一句话总结¶

提出EATTA方法，在长期测试时适应（TTA）中通过特征扰动敏感度每批次仅标注1个最有价值样本（而非多个），结合梯度范数去偏策略平衡监督和无监督损失的梯度，在ImageNet-C上以极低标注代价实现50.9%的平均错误率（超过标注3倍的SimATTA 3.9%）。

领域现状：测试时适应（TTA）在推理阶段用未标注测试数据微调预训练模型以适应分布偏移。长期TTA面临伪标签噪声累积导致性能持续退化的问题。近期的主动TTA（ATTA）方法引入少量人工标注来纠正伪标签，但每批次需要标注多个样本。

现有痛点：ATTA方法如SimATTA、HILTTA每批次标注3个样本，随着批次数增加标注总量线性增长，标注负担过重。且现有方法选择高熵样本标注，但高熵样本不一定是单步优化中最有价值的样本。

核心矛盾：需要足够的标注纠正伪标签累积误差，但标注预算有限——如何用最少的标注量（每批次仅1个）取得最优适应效果？

本文目标 设计极低标注代价的主动TTA方法，每批次仅标注1个样本即可有效抵抗长期适应中的伪标签退化。

切入角度：提出特征扰动敏感度作为样本价值度量——处于源域和目标域分布边界的样本对小扰动最敏感，标注这些样本对单步优化最有价值。

核心 idea：用特征扰动敏感度而非熵来选择每批次最有价值的1个样本标注，用梯度范数动态平衡监督/无监督损失的梯度贡献。

每个test batch到来时：（1）用特征扰动敏感度评估每个样本的标注价值，选择最高的1个请求标注；（2）结合类平衡机制避免重复标注同类样本；（3）用梯度范数去偏动态调节监督损失和无监督（熵）损失的权重；（4）在标注样本+伪标签样本上更新模型。

特征扰动敏感度选择策略:
- 功能：每批次选出对模型优化最有价值的1个样本
- 核心思路：对每个样本的特征加小高斯噪声\(\epsilon\)，比较扰动前后在伪标签类别上的预测概率差异\(\text{diff}(x_i) = |\phi(h(f(x_i)))_{\hat{y}_i} - \phi(h(f(x_i)+\epsilon))_{\hat{y}_i}|\)。差异最大的样本位于决策边界附近，标注后对优化的贡献最大。同时维护最近K个标注样本的类别记录，避免重复标注同类
- 设计动机：比高熵选择更精准——高熵样本可能是纯噪声（远离两个分布），而扰动敏感的样本恰好在分布交界处，标注价值最高
梯度范数去偏（Gradient Norm-based Debiasing）:
- 功能：平衡监督损失和无监督损失对模型更新的贡献
- 核心思路：计算监督和无监督损失的梯度L2范数，用对方的范数作为己方的权重：\(\gamma_1 = 2 \|\nabla L_{unsup}\| / (\|\nabla L_{sup}\| + \|\nabla L_{unsup}\|)\)，\(\gamma_2\)对称。用EMA平滑权重以保持长期稳定。这样标注少时监督损失梯度小→权重自动增大，反之亦然
- 设计动机：EATTA每批次仅1个标注样本，整批的监督损失梯度远小于无监督损失，直接相加会使标注信号被淹没。梯度归一化确保两个信号等量贡献

总损失\(L = \gamma_1 L_{sup} + \gamma_2 L_{unsup}\)，\(L_{sup}\)为标注样本上的交叉熵，\(L_{unsup}\)为全部样本上的熵最小化。BN层仿射参数可训练。可选地维护buffer存储历史标注样本做replay。