IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation¶

日期: 2026-03-09
arXiv: 2603.07926
代码: GitHub
领域: LLM效率
关键词: test-time adaptation, SVD, spectral experts, diversity maximization, continual adaptation

一句话总结¶

将 ViT 线性层通过 SVD 分解为"谱专家"（rank-1 成分），只微调奇异值（spectral code）实现参数高效自适应，提出多样性最大化损失缓解熵最小化导致的特征坍缩，并设计域感知谱码检索机制实现 CTTA 中的域知识保存和快速复用，在 TTA/CTTA/Gradual CTTA 上全面 SOTA。

研究背景与动机¶

领域现状: Test-Time Adaptation (TTA) 在测试时不访问源域数据的情况下适应预训练模型到新域。现有方法或只调 BN 统计量（能力有限），或引入额外模块（adapter/prompt）增加推理开销。
现有痛点: (a) 未充分利用大预训练模型的丰富表征能力；(b) 无标签场景下熵最小化导致特征坍缩——模型过度依赖域特定特征而非类判别特征；(c) 持续 TTA（CTTA）中，之前遇到的域知识无法保存复用。
核心 idea: 将线性层 SVD 分解后的 rank-1 成分视为"谱专家"，奇异值是专家的贡献权重。只调奇异值 = 调节各专家的混合权重，保持预训练的特征提取器不变。

方法详解¶

整体框架¶

预训练 ViT → 对所有线性层做 SVD → 冻结奇异向量 \(\mathbf{U}, \mathbf{V}\) → 只更新奇异值 \(\sigma\)（spectral code）→ 用熵最小化 + 多样性最大化联合优化 → CTTA 场景增加域描述符+域银行的谱码检索。

关键设计¶

Intrinsic Mixture of Spectral Experts:
- SVD 分解：\(\mathbf{W}^{(l)} = \sum_{i=1}^{r} \sigma_i \mathbf{u}_i \mathbf{v}_i^\top\)
- 每个 rank-1 成分 \(\mathbf{u}_i \mathbf{v}_i^\top\) 是一个"谱专家"，\(\sigma_i\) 是其贡献权重
- 只更新 spectral code \(\mathbf{S} = \{\boldsymbol{\sigma}^{(l)}\}_{l=1}^L\)
- 设计动机：保持正交基不变 = 保持预训练的特征提取器，只改变混合权重
Diversity Maximization Loss:
- 计算专家-输入对齐统计：\(\text{Std}_i^{(l)}\) 衡量第 \(i\) 个专家对不同 token 的响应变化
- 多样性损失：\(\mathcal{L}_{dm} = -\sum_l \frac{1}{r^{(l)}} \sum_i \text{Std}_i^{(l)}\)
- 鼓励专家对不同输入有多样化的响应，而非都响应域特定模式
- 设计动机：熵最小化让少数专家主导输出（特征坍缩），此损失强制均衡利用所有专家
Domain-Aware Spectral Code Retrieval (CTTA):
- 域描述符：patch embedding 的 channel-wise mean + variance（EMA 累积）
- 域银行：存储 {域描述符, 谱码} 对
- 域转移检测：对称 KL 散度超过阈值 \(\tau\) 则认为新域到来
- 检索最相似域的谱码作为新域自适应的初始化
- 设计动机：奇异值作为域知识的紧凑表示，存储和检索开销极低

训练策略¶

\(\mathcal{L}_{IMSE} = \mathcal{L}_{entmin} + \lambda_{dm} \cdot \mathcal{L}_{dm}\)
SAR 式样本过滤（丢弃高熵不可靠样本）
Sharpness-Aware Minimization 增强稳定性

实验关键数据¶

主实验（ImageNet-C，ViT-B/16）¶

方法	TTA Avg Acc	可训练参数
TENT	57.3%	BN params
SAR	59.8%	BN params
ViDA	62.1%	Adapter
IMSE	64.5%	奇异值 (385× 更少)

CTTA 实验（ImageNet-C 15 域连续）¶

方法	CTTA Avg Acc	Gradual CTTA
CoTTA	53.2%	55.8%
ViDA	57.4%	59.1%
IMSE-Retrieval	60.8% (+3.4pp)	61.5% (+2.4pp)

消融实验¶

配置	TTA Acc
仅熵最小化	61.2%
+ 多样性最大化	64.5%
无 SAR 式过滤	62.8%
全参数 SVD 微调	63.1%

关键发现¶

多样性最大化损失贡献 +3.3pp，有效对抗特征坍缩
只调奇异值（参数量少 385 倍）效果反而更好，说明保持正交基很重要
域检索在 CTTA 中将误差积累大幅降低
在 MAE/CLIP 预训练模型上同样有效，泛化性好

亮点与洞察¶

"谱专家"视角: 用 SVD 的 rank-1 成分重新解释线性层为专家混合，概念优雅
极致参数效率: 只调奇异值，参数量比 adapter/prompt 方法少 2 个数量级
多样性损失的理论基础: Std 度量直接对应特征多样性，比简单正则化更有针对性
域知识的紧凑编码: spectral code 作为域的"指纹"用于存储和检索，设计巧妙

局限性 / 可改进方向¶

SVD 分解本身有计算开销（可在部署前离线完成）
域转移检测的阈值 \(\tau\) 需要手动设定
仅在分类任务上验证，分割/检测等任务适用性未知
长序列 CTTA 中域银行会不断增长

评分¶

新颖性: ⭐⭐⭐⭐⭐ 谱专家视角+多样性损失+域检索三合一
实验充分度: ⭐⭐⭐⭐⭐ TTA/CTTA/Gradual CTTA + 多 backbone + 详细消融
写作质量: ⭐⭐⭐⭐ 概念清晰，数学严谨
价值: ⭐⭐⭐⭐⭐ TTA 领域的高质量工作