跳转至

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

日期: 2026-03-09
arXiv: 2603.07926
代码: GitHub
领域: LLM效率
关键词: test-time adaptation, SVD, spectral experts, diversity maximization, continual adaptation

一句话总结

将 ViT 线性层通过 SVD 分解为"谱专家"(rank-1 成分),只微调奇异值(spectral code)实现参数高效自适应,提出多样性最大化损失缓解熵最小化导致的特征坍缩,并设计域感知谱码检索机制实现 CTTA 中的域知识保存和快速复用,在 TTA/CTTA/Gradual CTTA 上全面 SOTA。

研究背景与动机

  1. 领域现状: Test-Time Adaptation (TTA) 在测试时不访问源域数据的情况下适应预训练模型到新域。现有方法或只调 BN 统计量(能力有限),或引入额外模块(adapter/prompt)增加推理开销。

  2. 现有痛点: (a) 未充分利用大预训练模型的丰富表征能力;(b) 无标签场景下熵最小化导致特征坍缩——模型过度依赖域特定特征而非类判别特征;(c) 持续 TTA(CTTA)中,之前遇到的域知识无法保存复用。

  3. 核心 idea: 将线性层 SVD 分解后的 rank-1 成分视为"谱专家",奇异值是专家的贡献权重。只调奇异值 = 调节各专家的混合权重,保持预训练的特征提取器不变。

方法详解

整体框架

预训练 ViT → 对所有线性层做 SVD → 冻结奇异向量 \(\mathbf{U}, \mathbf{V}\) → 只更新奇异值 \(\sigma\)(spectral code)→ 用熵最小化 + 多样性最大化联合优化 → CTTA 场景增加域描述符+域银行的谱码检索。

关键设计

  1. Intrinsic Mixture of Spectral Experts:

    • SVD 分解:\(\mathbf{W}^{(l)} = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top\)
    • 每个 rank-1 成分 \(\mathbf{u}_i \mathbf{v}_i^\top\) 是一个"谱专家",\(\sigma_i\) 是其贡献权重
    • 只更新 spectral code \(\mathbf{S} = \{\boldsymbol{\sigma}^{(l)}\}_{l=1}^L\)
    • 设计动机:保持正交基不变 = 保持预训练的特征提取器,只改变混合权重
  2. Diversity Maximization Loss:

    • 计算专家-输入对齐统计:\(\text{Std}_i^{(l)}\) 衡量第 \(i\) 个专家对不同 token 的响应变化
    • 多样性损失:\(\mathcal{L}_{dm} = -\sum_l \frac{1}{r^{(l)}} \sum_i \text{Std}_i^{(l)}\)
    • 鼓励专家对不同输入有多样化的响应,而非都响应域特定模式
    • 设计动机:熵最小化让少数专家主导输出(特征坍缩),此损失强制均衡利用所有专家
  3. Domain-Aware Spectral Code Retrieval (CTTA):

    • 域描述符:patch embedding 的 channel-wise mean + variance(EMA 累积)
    • 域银行:存储 {域描述符, 谱码} 对
    • 域转移检测:对称 KL 散度超过阈值 \(\tau\) 则认为新域到来
    • 检索最相似域的谱码作为新域自适应的初始化
    • 设计动机:奇异值作为域知识的紧凑表示,存储和检索开销极低

训练策略

  • \(\mathcal{L}_{IMSE} = \mathcal{L}_{entmin} + \lambda_{dm} \cdot \mathcal{L}_{dm}\)
  • SAR 式样本过滤(丢弃高熵不可靠样本)
  • Sharpness-Aware Minimization 增强稳定性

实验关键数据

主实验(ImageNet-C,ViT-B/16)

方法 TTA Avg Acc 可训练参数
TENT 57.3% BN params
SAR 59.8% BN params
ViDA 62.1% Adapter
IMSE 64.5% 奇异值 (385× 更少)

CTTA 实验(ImageNet-C 15 域连续)

方法 CTTA Avg Acc Gradual CTTA
CoTTA 53.2% 55.8%
ViDA 57.4% 59.1%
IMSE-Retrieval 60.8% (+3.4pp) 61.5% (+2.4pp)

消融实验

配置 TTA Acc
仅熵最小化 61.2%
+ 多样性最大化 64.5%
无 SAR 式过滤 62.8%
全参数 SVD 微调 63.1%

关键发现

  • 多样性最大化损失贡献 +3.3pp,有效对抗特征坍缩
  • 只调奇异值(参数量少 385 倍)效果反而更好,说明保持正交基很重要
  • 域检索在 CTTA 中将误差积累大幅降低
  • 在 MAE/CLIP 预训练模型上同样有效,泛化性好

亮点与洞察

  • "谱专家"视角: 用 SVD 的 rank-1 成分重新解释线性层为专家混合,概念优雅
  • 极致参数效率: 只调奇异值,参数量比 adapter/prompt 方法少 2 个数量级
  • 多样性损失的理论基础: Std 度量直接对应特征多样性,比简单正则化更有针对性
  • 域知识的紧凑编码: spectral code 作为域的"指纹"用于存储和检索,设计巧妙

局限性 / 可改进方向

  • SVD 分解本身有计算开销(可在部署前离线完成)
  • 域转移检测的阈值 \(\tau\) 需要手动设定
  • 仅在分类任务上验证,分割/检测等任务适用性未知
  • 长序列 CTTA 中域银行会不断增长

相关工作与启发

  • vs TENT/SAR: 只调 BN 参数,能力有限;IMSE 调奇异值覆盖所有线性层
  • vs ViDA: 引入额外 adapter 模块,增加推理开销;IMSE 无额外结构
  • vs SVFT/SVDiff: LLM/Diffusion 的奇异值微调方法,但未考虑 TTA 场景的特殊挑战

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 谱专家视角+多样性损失+域检索三合一
  • 实验充分度: ⭐⭐⭐⭐⭐ TTA/CTTA/Gradual CTTA + 多 backbone + 详细消融
  • 写作质量: ⭐⭐⭐⭐ 概念清晰,数学严谨
  • 价值: ⭐⭐⭐⭐⭐ TTA 领域的高质量工作