FRET: Feature Redundancy Elimination for Test Time Adaptation¶

会议: ICCV 2025
arXiv: 2505.10641
代码: GitHub
领域: AI安全
关键词: 测试时自适应, 特征冗余消除, 分布偏移, 图卷积网络, 对比学习

一句话总结¶

本文提出特征冗余消除（FRET）作为测试时自适应（TTA）的新视角，发现分布偏移时嵌入特征冗余度显著增加，并设计了S-FRET（直接最小化冗余分数）和G-FRET（基于GCN的注意力-冗余分解+双层优化）两种方法，G-FRET在多种架构和数据集上达到SOTA性能。

研究背景与动机¶

深度神经网络在训练与测试数据独立同分布（i.i.d.）假设下表现良好，但在实际场景中常面临分布偏移（distribution shift）问题。测试时自适应（TTA）仅需访问预训练模型和未标注的测试数据，特别适合隐私敏感场景。

现有方法分类： - BN校准方法：用目标域统计量替换训练域BN统计量 - 伪标签方法：通过阈值或熵筛选可靠伪标签 - 一致性训练方法：保持输入扰动下的预测稳定性 - 聚类方法：利用聚类减少目标预测的不确定性

核心观察：作者在ResNet-18的CIFAR10-C上发现，随着分布偏移加剧，嵌入特征的二阶关系图（协方差矩阵）冗余度显著增加——协方差矩阵的热力图越红说明特征间相关性越高。定量分析显示，冗余分数 \(R_e = \|\tilde{Z}^T\tilde{Z} - I_d\|_1\) 与腐蚀程度呈正相关。

核心矛盾：现有TTA方法均未关注分布偏移导致的特征冗余增加问题，而冗余特征恰恰削弱了模型对新数据的适应能力。

切入角度：直接在测试时消除嵌入特征冗余，从全新的冗余消除视角解决TTA问题。

方法详解¶

整体框架¶

FRET框架分为两个层次： 1. S-FRET：直接将冗余分数 \(R_e\) 作为优化目标，简单高效 2. G-FRET：引入GCN将特征关系分解为注意力部分和冗余部分，在表示层和预测层同时消除冗余并增强判别性

关键设计¶

特征冗余度量（Feature Redundancy Score）:
- 功能：量化嵌入特征的冗余程度
- 核心思路：对嵌入矩阵 \(Z\) 按列归一化得到 \(\tilde{Z}\)，计算冗余分数 \(R_e = \|\tilde{Z}^T\tilde{Z} - I_d\|_1\)。理想的非冗余特征应使协方差矩阵接近单位阵
- 设计动机：协方差矩阵的非对角元素表示特征间的线性相关性，最小化这些元素可消除冗余
注意力-冗余分解（Attention-Redundancy Decomposition）:
- 功能：将特征关系图分解为有用的注意力关系和需要消除的冗余关系
- 核心思路：构建二阶特征关系图 \(G_F = Z^TZ\)，通过掩码矩阵 \(M_M = I_d\) 分解为注意力图 \(G_A = G_F \odot I_d\)（仅保留对角线）和冗余图 \(G_R = G_F - G_A\)。然后通过GCN生成注意力表示和冗余表示： \(R_A = Z D_A^{-1/2} G_A D_A^{-1/2}, \quad P_A = R_A \theta^h\) \(R_R = Z D_R^{-1/2} G_R D_R^{-1/2}, \quad P_R = R_R \theta^h\)
- 设计动机：直接最小化冗余分数的S-FRET无法感知标签分布，不能处理label shift；通过GCN将数据信息与特征关系信息融合，可以同时处理covariate shift和label shift
表示层冗余消除（Representation-Layer Redundancy Elimination）:
- 功能：通过对比学习使注意力表示具有类别判别性，同时远离冗余表示
- 核心思路：定义对比损失 \(\mathcal{L}_R\)，正样本为注意力表示 \(R_{A_i}\) 与其对应的类中心 \(c_o\)，负样本包括其他类中心 \(\{c_j\}\) 和冗余表示 \(R_{R_i}\)： \(\mathcal{L}_R = -\sum_{i=1}^{n_t} \log \frac{\exp(\text{sim}(R_{A_i}, c_o))}{\sum_{j=1}^{C} \exp(\text{sim}(R_{A_i}, c_j)) + \exp(\text{sim}(R_{A_i}, R_{R_i}))}\) 类中心通过伪标签聚类计算
- 设计动机：单纯消除冗余不够，还需增强有用特征的判别性以应对label shift
预测层冗余消除（Prediction-Layer Redundancy Elimination）:
- 功能：在预测层增强注意力预测的置信度，同时抑制冗余预测
- 核心思路：结合熵最小化和负学习： \(\mathcal{L}_P = -\sum_{i=1}^{N} \sigma(P_{A_i}) \log \sigma(P_{A_i}) - \sum_{i=1}^{N} \sigma(P_{R_i}) \log \sigma(1 - P_{A_i})\) 第一项最小化注意力预测的熵（使预测更锐利），第二项通过负学习惩罚冗余预测
- 设计动机：双层（表示层+预测层）优化比仅在单层操作更有效

损失函数 / 训练策略¶

S-FRET损失：\(\mathcal{L}_{SFRET} = \|\tilde{Z}^T\tilde{Z} - I_d\|_1\)
G-FRET总损失：\(\mathcal{L}_{GFRET} = \mathcal{L}_R + \lambda \mathcal{L}_P\)
在线自适应：接收测试数据后，用上一步参数的模型生成预测，然后用单步梯度下降更新
仅更新BN层参数，保持其他参数冻结

实验关键数据¶

主实验（域泛化TTA - PACS + OfficeHome）¶

方法	骨干	PACS Avg	OfficeHome Avg
Source	ResNet-18	81.84	62.01
BN	ResNet-18	82.66	62.03
TENT	ResNet-18	85.60	63.24
TSD	ResNet-18	88.13	62.55
TEA	ResNet-18	87.98	63.06
TIPI	ResNet-18	87.23	63.29
G-FRET	ResNet-18	88.51	63.81
TSD	ResNet-50	89.97	68.74
TEA	ResNet-50	88.72	68.95
G-FRET	ResNet-50	91.28	69.96

消融实验¶

配置	PACS Avg	说明
S-FRET（仅冗余最小化）	86.20	简单有效，但对label shift脆弱
G-FRET w/o \(\mathcal{L}_R\)	87.53	缺少表示层对比学习
G-FRET w/o \(\mathcal{L}_P\)	87.89	缺少预测层负学习
G-FRET (full)	88.51	双层优化效果最佳
\(\lambda = 0.1\)	87.92	平衡参数偏小
\(\lambda = 1.0\)	88.51	最佳平衡
\(\lambda = 10\)	88.05	预测层损失权重过大

关键发现¶

特征冗余度与分布偏移程度呈正相关，这一观察在多种架构和数据集上成立
S-FRET虽简单，但在covariate shift场景下已经很有效
G-FRET通过注意力-冗余分解和双层优化，在label shift场景下大幅超越S-FRET
G-FRET生成的特征可视化显示冗余显著降低，判别性增强

亮点与洞察¶

全新视角：首次将特征冗余消除引入TTA，提供了与BN校准、伪标签、一致性训练等正交的新思路
从简到繁的方法设计：S-FRET简洁优雅（一行公式），G-FRET在此基础上逐步添加GCN、对比学习、负学习，逻辑清晰
GCN的巧妙使用：将GCN的图传播用于建模特征间关系，使得注意力和冗余关系可以在特征层级显式分离
label shift的处理：通过引入类中心感知的对比学习，G-FRET弥补了纯冗余最小化方法的不足

局限与展望¶

G-FRET引入了GCN和对比学习，增加了测试时的计算开销（每个batch需要构建图和传播）
掩码矩阵 \(M_M\) 固定为单位阵，可能不是所有场景的最优选择
对极端分布偏移（如corruption level 5）的性能提升有限
类中心计算依赖伪标签质量，在noise较大时可能不稳定
未探索与其他TTA方法的组合使用

评分¶

新颖性: ⭐⭐⭐⭐ 特征冗余视角是TTA领域的新贡献，但技术组件（GCN、对比学习）本身不新
实验充分度: ⭐⭐⭐⭐⭐ 多架构（ResNet-18/50/ViT）、多数据集（PACS/OfficeHome/CIFAR-C）、详尽消融
写作质量: ⭐⭐⭐⭐ 动机可视化直观，方法描述清晰，但公式排版较密集
价值: ⭐⭐⭐⭐ 提供了实用的TTA新方法和对特征冗余的新理解，对后续研究有启发