Implicit Modeling for Transferability Estimation of Vision Foundation Models¶
会议: NeurIPS 2025
arXiv: 2510.23145
作者: Yaoyan Zheng, Huiqun Wang, Nan Zhou, Di Huang (北京航空航天大学)
代码: BUAAHugeGun/ITM
领域: self_supervised
关键词: 可迁移性估计, 预训练模型选择, 嵌入空间演化, 变分近似, 视觉基础模型
一句话总结¶
提出隐式可迁移性建模(ITM)框架,通过隐变量z隐式编码模型-任务对的迁移能力,结合分治变分近似(DVA)高效模拟嵌入空间演化,在10个下游任务和10个多样化预训练模型上的加权Kendall tau_w从此前最优的0.45提升至0.61。
研究背景与动机¶
问题背景¶
预训练-微调范式下,大量预训练模型公开可用,但不同架构、预训练策略的模型在不同下游任务上表现差异巨大。可迁移性估计(Transferability Estimation, TE)旨在以极低计算开销预测模型在目标任务上的性能排名,避免逐一微调的暴力搜索。
已有工作的不足¶
- 静态统计方法(NCE、LEEP、LogME等)仅分析预训练嵌入空间的统计特性,忽略微调过程中的嵌入演化动态
- 动态演化方法(PED、LEAD、SA等)虽尝试模拟嵌入空间的演化过程,但依赖手工设计的规则或理想化假设,无法全面捕捉模型属性和任务适应性
- 现有方法主要在相似架构、监督预训练的CNN上评估,面对ViT架构和自监督策略(实例判别、遮蔽图像建模)时,不同模型的收敛行为差异导致估计精度大幅下降
- 绝大多数方法仅支持图像分类,缺乏对语义分割等密集预测任务的适应能力
核心动机¶
模型在下游任务上的表现取决于两方面:(1)模型的内在属性(架构、预训练数据和策略);(2)下游任务的特性。二者的交互决定了适应动态。已有方法仅通过显式模拟嵌入演化来估计性能,未能充分建模二者交互。本文的核心思路是:用少量可学习参数隐式建模每个模型-任务对的可迁移性,使估计框架对模型多样性具有更好的泛化能力。
方法详解¶
整体框架:隐式可迁移性建模(ITM)¶
ITM将预训练模型的可迁移性解耦为一个隐变量z,并将微调后的嵌入空间表示为后验分布q(E_hat | E, z),将复杂的映射问题转化为概率估计框架。
分治变分近似(DVA)¶
Step 1:批次级分割(Batch-wise Division)
将全局嵌入空间E划分为K个子空间(实际中每个子空间对应一个mini-batch的嵌入),基于批次独立性假设,将后验分解为子空间后验的乘积:
q_psi(E_hat | E, z) = prod_{j=1}^{K} q_psi(E_hat_j | E_j, z)
引入条件映射f(·; W_z)将隐变量z嵌入到每个batch的预训练嵌入中,生成合成后验条件 Theta_j = f(E_j; W_z)。W_z即为隐式编码可迁移性的可学习参数。
Step 2:伪聚类中心生成(Pseudo-cluster Center Generation)
利用现代预训练模型在训练数据上强收敛的特性——不同类别的表示倾向于形成分离的聚类——生成伪聚类中心作为嵌入空间的目标最终状态。可通过one-hot向量、高维随机向量或PCA特征向量实现,并利用初始特征的均值和标准差进行偏移加速收敛。
Step 3:去参数化近似(Deparametric Approximation)
关键创新:消除对可学习参数W_g的依赖。以MSE损失为例,推导映射层g的梯度下降更新规则,得到子空间演化的闭式迭代公式:
E_j^(n+1) = (I - eta * C) * E_j^(n) + eta * C * E_hat_j
其中 C = (1/B) * Theta_j * Theta_j^T 是仅依赖于初始条件的常量矩阵。这一公式无需对每个子空间进行显式迭代优化,大幅降低计算开销。
训练与评估流程¶
- 训练阶段:将隐变量z通过W_z嵌入到嵌入子空间中,结合去参数化近似执行DVA更新,并利用下游任务目标损失(如交叉熵)优化W_z
- 评估阶段:计算演化后嵌入空间在评估集上的准确率作为估计分数
- 训练迭代500步,每100步评估一次,取最高分作为最终估计
实验关键数据¶
实验1:主实验——10个数据集上的可迁移性估计¶
使用10个预训练模型(4个监督CNN + 3个对比学习ViT + 3个MIM ViT),在10个分类数据集上对比7种方法。
| 方法 | Cal101 | Cars | CIFAR100 | CIFAR10 | DTD | Aircraft | Flowers | Food | Pets | SUN | 平均tau_w |
|---|---|---|---|---|---|---|---|---|---|---|---|
| NLEEP | 0.47 | 0.04 | 0.32 | 0.48 | 0.57 | 0.13 | 0.62 | 0.24 | 0.30 | 0.01 | 0.32 |
| LogME | 0.71 | 0.36 | 0.56 | 0.61 | 0.61 | 0.22 | 0.77 | 0.15 | 0.14 | 0.38 | 0.45 |
| PARC | 0.08 | 0.00 | -0.07 | 0.25 | 0.42 | 0.12 | 0.62 | 0.19 | 0.10 | 0.01 | 0.17 |
| SFDA | 0.59 | 0.07 | 0.48 | 0.79 | 0.13 | 0.18 | -0.39 | 0.33 | 0.28 | 0.09 | 0.25 |
| ETran | 0.13 | -0.06 | -0.14 | 0.21 | 0.36 | 0.27 | 0.08 | 0.23 | 0.38 | -0.06 | 0.14 |
| PED | 0.32 | -0.01 | 0.51 | 0.77 | 0.06 | -0.20 | 0.16 | 0.60 | -0.20 | 0.07 | 0.21 |
| SA (LDA) | 0.31 | -0.11 | -0.06 | 0.34 | 0.33 | 0.22 | 0.14 | 0.18 | 0.33 | -0.12 | 0.16 |
| ITM (本文) | 0.56 | 0.61 | 0.59 | 0.69 | 0.77 | 0.43 | 0.65 | 0.44 | 0.73 | 0.62 | 0.61 |
ITM平均tau_w为0.61,相比此前最优LogME的0.45提升35.6%。五次不同随机种子运行结果为0.60 +/- 0.01,稳定性极高。运行时间仅8.42秒(CPU),相比特征提取的738秒(GPU)可忽略不计。
实验2:语义分割任务泛化¶
在CamVid和Cityscapes两个密集预测数据集上,使用5个预训练ViT模型验证ITM对分割任务的泛化能力。
| 数据集 | 指标 | MoCov3-B16 | DINO-B16 | MAE-B16 | SimMIM-B16 | MAE-L16 | tau_w |
|---|---|---|---|---|---|---|---|
| CamVid | mIoU | 58.11 | 60.05 | 63.99 | 64.52 | 68.25 | 0.61 |
| ITM分数 | 85.87 | 86.41 | 88.58 | 83.85 | 89.03 | ||
| Cityscapes | mIoU | 40.06 | 41.45 | 44.21 | 43.72 | 47.33 | 0.72 |
| ITM分数 | 79.77 | 79.14 | 83.11 | 78.03 | 83.86 |
ITM在分割任务上分别取得tau_w = 0.61和tau_w = 0.72,成功选出最优模型MAE-L16,验证了其跨任务泛化能力。
消融实验补充¶
| 损失函数 | 平均tau_w |
|---|---|
| Cross-Entropy | 0.554 |
| MAE | 0.566 |
| MSE | 0.608 |
MSE损失函数在去参数化近似中表现最优,其平滑特性有助于伪聚类更新的稳定性。批次大小256、迭代500步为最佳配置。
亮点¶
- 隐式建模范式创新:将可迁移性编码为隐变量z,通过可学习参数W_z自适应捕捉模型-任务对的内在属性交互,而非依赖手工设计的演化规则
- 去参数化近似的优雅推导:通过闭式展开梯度下降,消除了显式优化映射层参数的需要,在保持估计精度的同时大幅降低计算开销
- 跨架构与跨任务泛化:在CNN和ViT混合模型池、监督/对比/MIM混合预训练策略下均表现稳定,且成功拓展到语义分割任务
- 显著的性能提升:平均tau_w从0.45提升至0.61,且0.60 +/- 0.01的低方差体现了极强的鲁棒性
局限与展望¶
- 仍依赖嵌入空间判别性:无法直接处理检测或视觉-语言任务等复杂监督场景
- 仅利用最终输出特征:未充分利用中间层表示或丰富的输出嵌入信息来建模模型内在属性
- 仅评估全量微调场景:未考虑PEFT(LoRA、VPT等)范式下的可迁移性估计,而基础模型在PEFT下的适应特性可能与全量微调显著不同
- 伪聚类中心的近似粗糙:用预设的聚类中心替代真实微调后的嵌入分布,对于类别数极多或类间相似度高的任务可能引入偏差
- 模型池规模有限:实验中仅使用10-14个模型,未验证在大规模模型库(如100+模型)下的可扩展性
与相关工作的对比¶
- LogME:最大证据对数的静态方法,计算最快(1.93s)但精度有限(tau_w = 0.45),忽略微调动态
- LEAD:用常微分方程模拟logit空间演化,是动态方法的代表,但依赖LogME的评估管道,面对多样化模型泛化不足
- PED:用势能模型预测演化状态,在部分数据集上出现负相关(Pets: -0.20, Aircraft: -0.20),泛化性差
- SA (LDA):通过扩散和吸引操作扰动特征空间,平均tau_w仅0.16,在多个数据集上给出错误排名
- ETran:能量度量方法,平均tau_w = 0.14,在CIFAR100和SUN上出现负相关
- ITM(本文):隐式建模范式使其无需依赖特定演化假设,在所有10个数据集上tau_w > 0.4,是唯一在所有任务上正相关的方法
评分¶
- 新颖性: ⭐⭐⭐⭐ — 隐式建模+去参数化近似的框架设计新颖,将TE从显式规则推向概率建模
- 实验充分度: ⭐⭐⭐⭐ — 10个数据集、10个模型的全面对比,包含稳定性实验、消融和分割任务泛化
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,数学推导连贯,从问题建模到框架设计逻辑通顺
- 价值: ⭐⭐⭐⭐ — 提出了更具泛化性的TE范式,对大规模模型选择有实际意义,但PEFT场景空缺
相关论文¶
- [ICCV 2025] LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models
- [CVPR 2026] Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models
- [CVPR 2026] Robustness of Vision Foundation Models to Common Perturbations
- [NeurIPS 2025] One Filters All: A Generalist Filter for State Estimation
- [NeurIPS 2025] Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge