Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models¶
会议: NeurIPS 2025
arXiv: 2511.09809
代码: GitHub
领域: 多模态VLM
关键词: 测试时适应, VLM零样本泛化, SVD谱分解, 文本原型转向, 参数高效
一句话总结¶
提出STS(Spectrum-Aware Test-Time Steering),一种轻量级测试时适应方法:通过文本嵌入的SVD分解提取低维语义子空间,学习少量系数在该子空间内对文本原型进行"转向"以适应域偏移,无需反向传播通过大编码器,推理速度比TPT快8倍、内存占用减少12倍,同时在OOD数据集上大幅超越现有TTA方法。
研究背景与动机¶
CLIP等VLM在零样本推理上表现优异,但在测试时遇到域偏移(OOD数据)时性能会显著下降。测试时适应(TTA)应运而生,使模型在推理阶段动态适应无标签测试样本。然而,现有TTA方法存在三大核心问题:
计算开销大:TPT(Test-Time Prompt Tuning)及其变体需要反向传播通过大型文本编码器来更新prompt参数,导致推理时间和内存消耗显著增加。TPT每个样本需要0.75秒和17.6GB内存。
需要修改模型内部结构:基于LoRA等参数高效微调的方法(如TTL)需要访问和修改模型的内部架构(注意力层),偏离了真正的黑盒范式,不适用于专有模型或固定结构模型。
无约束的表征偏移:TPS(Test-Time Prototype Shifting)虽然在嵌入空间直接学习偏移向量避免了编码器反向传播,但其偏移是无约束的高维向量——在高维空间中的任意方向偏移可能偏离语义有意义的区域,对噪声敏感。
作者的核心洞察是:预训练深度网络的嵌入具有低内在维度——其本质信息位于低维流形上。因此,应该在这个低维语义子空间内进行适应,而非在高维嵌入空间中任意偏移。这一思路催生了STS:通过SVD发现语义主方向,在主方向上进行有约束的转向。
方法详解¶
整体框架¶
STS的工作流程分为预计算和测试时两个阶段: - 预计算阶段(一次性):编码所有类别文本获得初始原型 \(Z_{T_{init}} \in \mathbb{R}^{C \times D}\),对其执行SVD分解,提取前 \(k_t\) 个右奇异向量作为语义适应基底 \(B_T\) - 测试时阶段(每个样本):学习 \(k_t\) 个系数 \(\gamma\)(初始化为零),生成转向向量并应用到所有类别原型上,最小化增强视图的边际熵
关键设计¶
- 谱子空间识别:对初始文本原型 \(Z_{T_{init}}\) 执行SVD分解: \(Z_{T_{init}} = U_T S_T V_T^\top\)
选取与前 \(k_t\) 个最大奇异值对应的右奇异向量 \(B_T = [v_1, v_2, ..., v_{k_t}] \in \mathbb{R}^{D \times k_t}\)。这些向量捕获了类别概念之间最显著的语义变异轴。\(k_t\) 的选择使用Gavish-Donoho最优硬阈值策略,基于矩阵的宽高比和奇异值中位数自动确定。
关键性质:少数几个奇异向量就能捕获 \(>90\%\) 的总能量(如ImageNet的1000个类别在512维空间中,\(k_t\) 通常只有十几到几十个)。这意味着适应只需在极低维空间中进行。
- 子空间系数转向机制:对于每个测试样本,学习一个共享的 \(k_t\) 维系数向量 \(\gamma \in \mathbb{R}^{k_t}\)(对所有类别共享同一转向方向),重建转向向量并应用: \(\Delta z_T = B_T \gamma\) \((z_{T_{adapted}})_c = \text{normalize}((z_{T_{init}})_c + \Delta z_T)\)
这一设计有两个关键特点:(a)所有类别共享同一转向量,参数量极小(仅 \(k_t\) 个系数);(b)转向被约束在语义子空间内,提供了隐式正则化,防止过拟合到噪声增强。
-
基于边际熵的测试时优化:
- 对测试图像生成63个增强视图(仅随机裁剪+水平翻转)
- 用初始原型计算各视图的预测熵,保留最自信的top-10%视图
- 在保留的视图上,使用当前适配原型计算边际概率分布: \(\bar{P}_{adapted}(c) = \frac{1}{N_{filt}}\sum_{j'} \text{softmax}_c(L_{adapted}^{(j')}(c))\)
- 最小化边际熵 + L2正则化: \(\mathcal{L}_{STS} = H(\bar{P}_{adapted}) + \lambda_R \|\Delta z_T\|_2\)
- 使用AdamW优化器,学习率5e-3,仅优化一步
损失函数 / 训练策略¶
- 优化目标:边际熵最小化——鼓励模型在所有高置信增强视图上产生一致的、集中的预测分布
- 正则化:L2正则化约束偏移量大小,防止过度偏移
- 初始化:\(\gamma\) 初始化为零向量(即不做任何偏移开始)
- 优化步数:仅1步——极度高效
- 每个样本独立:处理完一个样本后 \(\gamma\) 重置为零
实验关键数据¶
主实验——自然分布偏移(ImageNet及OOD变体)¶
| 方法 | ImageNet | ImgNet-A | ImgNet-V2 | ImgNet-R | ImgNet-Sketch | OOD Avg |
|---|---|---|---|---|---|---|
| Zero-Shot CLIP | 66.73 | 47.87 | 60.86 | 73.98 | 46.09 | 57.20 |
| TPT | 68.97 | 54.39 | 63.37 | 77.07 | 48.01 | 60.71 |
| TPS | 67.96 | 57.46 | 62.95 | 74.90 | 46.03 | 60.34 |
| STS | 68.85 | 61.23 | 64.15 | 77.13 | 48.06 | 62.64 |
| STS_Ensemble | 70.81 | 64.29 | 64.82 | 80.53 | 50.19 | 64.96 |
消融——效率对比¶
| 方法 | 每样本时间(s) | 内存(GB) | ImageNet Acc | 增益 |
|---|---|---|---|---|
| Zero-Shot | 0.02 | 0.83 | 66.73 | - |
| TPT | 0.75 | 17.6 | 68.97 | +2.24 |
| STS_Ensemble | 0.09 | 1.4 | 70.81 | +4.08 |
| 加速比 vs TPT | 8.3× | 12.6× | - | 1.8× |
细粒度分类(10个数据集平均)¶
| 方法 | 平均准确率 | 最佳数据集 |
|---|---|---|
| Zero-Shot | 63.58% | - |
| TPT | 64.78% | - |
| TPS | 63.49% | - |
| STS_Ensemble | 65.06% | Caltech101, EuroSAT, Cars, Food, SUN |
关键发现¶
- OOD性能提升巨大:STS在ImageNet-A上比TPT高6.84%(61.23% vs 54.39%),OOD平均比TPT高1.93%——同时还快8倍
- TPS vs STS的对比验证了子空间约束的价值:TPS在高维空间无约束偏移反而不如TPT,而STS在低维子空间有约束偏移大幅胜出
- 仅1步优化即可达到效果:得益于SVD提供了良好的语义方向,无需多步迭代
- Prompt集成进一步提升:使用7个通用模板的STS_Ensemble在所有设置上都是最优
亮点与洞察¶
- "低维子空间中适应"是关键洞察:预训练模型的文本嵌入具有低秩结构,少量奇异向量就能捕获主要语义变异。在这个子空间中适应相当于在"语义有意义的方向"上偏移,而非在高维空间中随机游走
- 真正的黑盒适应:STS完全不接触编码器内部,仅在编码器输出的嵌入空间操作。这使其适用于API-only的VLM服务
- 极致的效率-性能权衡:仅 \(k_t\) 个参数(通常十几到几十个),1步优化,0.09秒/样本,1.4GB内存,同时性能最优——是TTA领域效率和性能的双重突破
- 方法的简洁性:整个方法可以用几行代码描述——SVD + 线性组合 + 一步梯度下降
局限与展望¶
- 线性转向的局限:当域偏移高度非线性时,线性SVD子空间中的偏移可能不足以覆盖复杂的分布变化
- 增强视图的线性成本:计算量与增强视图数量线性增长,64个视图是平衡点但仍有开销
- 共享转向向量:所有类别共享同一偏移方向可能不适用于类别间需要不同适应方向的场景
- 对SVD质量的依赖:当类别数很少时,SVD可能无法提取有意义的语义方向
相关工作与启发¶
- 与TPS的对比:TPS也在嵌入空间操作但使用无约束偏移向量,STS通过SVD子空间提供了关键的归纳偏置
- 与TPT的对比:TPT优化prompt需要访问编码器,STS在编码器输出端操作,实现了真正的黑盒
- 对VLM适应范式的启示:嵌入空间的结构(低秩、主成分分析)本身就是有价值的先验,利用好这一结构比暴力优化更有效
- 潜在扩展:视觉侧嵌入也可能受益于类似的谱分析和子空间转向
评分¶
- 新颖性: ⭐⭐⭐⭐ 将SVD谱分解应用于TTA的文本原型适应是新颖且有洞察力的想法
- 实验充分度: ⭐⭐⭐⭐⭐ ImageNet OOD变体+10个细粒度数据集+CIFAR10-C+效率分析+多backbone+详细消融
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,方法推导严谨,实验presentation优秀
- 价值: ⭐⭐⭐⭐ 实用价值很高(8倍加速+更好性能),方法简洁优雅,但影响面局限在TTA子领域
相关论文¶
- [NeurIPS 2025] TOMCAT: Test-time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning
- [NeurIPS 2025] Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting
- [ICCV 2025] Multi-Cache Enhanced Prototype Learning for Test-Time Generalization of Vision-Language Models
- [NeurIPS 2025] DOTA: DistributiOnal Test-time Adaptation of Vision-Language Models
- [NeurIPS 2025] The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models