Implicit Modeling for Transferability Estimation of Vision Foundation Models¶

会议: NeurIPS 2025
arXiv: 2510.23145
作者: Yaoyan Zheng, Huiqun Wang, Nan Zhou, Di Huang (北京航空航天大学)
代码: BUAAHugeGun/ITM
领域: self_supervised
关键词: 可迁移性估计, 预训练模型选择, 嵌入空间演化, 变分近似, 视觉基础模型

一句话总结¶

提出隐式可迁移性建模（ITM）框架，通过隐变量z隐式编码模型-任务对的迁移能力，结合分治变分近似（DVA）高效模拟嵌入空间演化，在10个下游任务和10个多样化预训练模型上的加权Kendall tau_w从此前最优的0.45提升至0.61。

研究背景与动机¶

问题背景¶

预训练-微调范式下，大量预训练模型公开可用，但不同架构、预训练策略的模型在不同下游任务上表现差异巨大。可迁移性估计（Transferability Estimation, TE）旨在以极低计算开销预测模型在目标任务上的性能排名，避免逐一微调的暴力搜索。

已有工作的不足¶

静态统计方法（NCE、LEEP、LogME等）仅分析预训练嵌入空间的统计特性，忽略微调过程中的嵌入演化动态
动态演化方法（PED、LEAD、SA等）虽尝试模拟嵌入空间的演化过程，但依赖手工设计的规则或理想化假设，无法全面捕捉模型属性和任务适应性
现有方法主要在相似架构、监督预训练的CNN上评估，面对ViT架构和自监督策略（实例判别、遮蔽图像建模）时，不同模型的收敛行为差异导致估计精度大幅下降
绝大多数方法仅支持图像分类，缺乏对语义分割等密集预测任务的适应能力

核心动机¶

模型在下游任务上的表现取决于两方面：（1）模型的内在属性（架构、预训练数据和策略）；（2）下游任务的特性。二者的交互决定了适应动态。已有方法仅通过显式模拟嵌入演化来估计性能，未能充分建模二者交互。本文的核心思路是：用少量可学习参数隐式建模每个模型-任务对的可迁移性，使估计框架对模型多样性具有更好的泛化能力。

方法详解¶

整体框架：隐式可迁移性建模（ITM）¶

ITM将预训练模型的可迁移性解耦为一个隐变量z，并将微调后的嵌入空间表示为后验分布q(E_hat | E, z)，将复杂的映射问题转化为概率估计框架。

分治变分近似（DVA）¶

Step 1：批次级分割（Batch-wise Division）

将全局嵌入空间E划分为K个子空间（实际中每个子空间对应一个mini-batch的嵌入），基于批次独立性假设，将后验分解为子空间后验的乘积：

q_psi(E_hat | E, z) = prod_{j=1}^{K} q_psi(E_hat_j | E_j, z)

引入条件映射f(·; W_z)将隐变量z嵌入到每个batch的预训练嵌入中，生成合成后验条件 Theta_j = f(E_j; W_z)。W_z即为隐式编码可迁移性的可学习参数。

Step 2：伪聚类中心生成（Pseudo-cluster Center Generation）

利用现代预训练模型在训练数据上强收敛的特性——不同类别的表示倾向于形成分离的聚类——生成伪聚类中心作为嵌入空间的目标最终状态。可通过one-hot向量、高维随机向量或PCA特征向量实现，并利用初始特征的均值和标准差进行偏移加速收敛。

Step 3：去参数化近似（Deparametric Approximation）

关键创新：消除对可学习参数W_g的依赖。以MSE损失为例，推导映射层g的梯度下降更新规则，得到子空间演化的闭式迭代公式：

E_j^(n+1) = (I - eta * C) * E_j^(n) + eta * C * E_hat_j

其中 C = (1/B) * Theta_j * Theta_j^T 是仅依赖于初始条件的常量矩阵。这一公式无需对每个子空间进行显式迭代优化，大幅降低计算开销。

训练与评估流程¶

训练阶段：将隐变量z通过W_z嵌入到嵌入子空间中，结合去参数化近似执行DVA更新，并利用下游任务目标损失（如交叉熵）优化W_z
评估阶段：计算演化后嵌入空间在评估集上的准确率作为估计分数
训练迭代500步，每100步评估一次，取最高分作为最终估计

实验关键数据¶

实验1：主实验——10个数据集上的可迁移性估计¶

使用10个预训练模型（4个监督CNN + 3个对比学习ViT + 3个MIM ViT），在10个分类数据集上对比7种方法。

方法	Cal101	Cars	CIFAR100	CIFAR10	DTD	Aircraft	Flowers	Food	Pets	SUN	平均tau_w
NLEEP	0.47	0.04	0.32	0.48	0.57	0.13	0.62	0.24	0.30	0.01	0.32
LogME	0.71	0.36	0.56	0.61	0.61	0.22	0.77	0.15	0.14	0.38	0.45
PARC	0.08	0.00	-0.07	0.25	0.42	0.12	0.62	0.19	0.10	0.01	0.17
SFDA	0.59	0.07	0.48	0.79	0.13	0.18	-0.39	0.33	0.28	0.09	0.25
ETran	0.13	-0.06	-0.14	0.21	0.36	0.27	0.08	0.23	0.38	-0.06	0.14
PED	0.32	-0.01	0.51	0.77	0.06	-0.20	0.16	0.60	-0.20	0.07	0.21
SA (LDA)	0.31	-0.11	-0.06	0.34	0.33	0.22	0.14	0.18	0.33	-0.12	0.16
ITM (本文)	0.56	0.61	0.59	0.69	0.77	0.43	0.65	0.44	0.73	0.62	0.61

ITM平均tau_w为0.61，相比此前最优LogME的0.45提升35.6%。五次不同随机种子运行结果为0.60 +/- 0.01，稳定性极高。运行时间仅8.42秒（CPU），相比特征提取的738秒（GPU）可忽略不计。

实验2：语义分割任务泛化¶

在CamVid和Cityscapes两个密集预测数据集上，使用5个预训练ViT模型验证ITM对分割任务的泛化能力。

数据集	指标	MoCov3-B16	DINO-B16	MAE-B16	SimMIM-B16	MAE-L16	tau_w
CamVid	mIoU	58.11	60.05	63.99	64.52	68.25	0.61
	ITM分数	85.87	86.41	88.58	83.85	89.03
Cityscapes	mIoU	40.06	41.45	44.21	43.72	47.33	0.72
	ITM分数	79.77	79.14	83.11	78.03	83.86

ITM在分割任务上分别取得tau_w = 0.61和tau_w = 0.72，成功选出最优模型MAE-L16，验证了其跨任务泛化能力。

消融实验补充¶

损失函数	平均tau_w
Cross-Entropy	0.554
MAE	0.566
MSE	0.608

MSE损失函数在去参数化近似中表现最优，其平滑特性有助于伪聚类更新的稳定性。批次大小256、迭代500步为最佳配置。

亮点¶

隐式建模范式创新：将可迁移性编码为隐变量z，通过可学习参数W_z自适应捕捉模型-任务对的内在属性交互，而非依赖手工设计的演化规则
去参数化近似的优雅推导：通过闭式展开梯度下降，消除了显式优化映射层参数的需要，在保持估计精度的同时大幅降低计算开销
跨架构与跨任务泛化：在CNN和ViT混合模型池、监督/对比/MIM混合预训练策略下均表现稳定，且成功拓展到语义分割任务
显著的性能提升：平均tau_w从0.45提升至0.61，且0.60 +/- 0.01的低方差体现了极强的鲁棒性

局限与展望¶

仍依赖嵌入空间判别性：无法直接处理检测或视觉-语言任务等复杂监督场景
仅利用最终输出特征：未充分利用中间层表示或丰富的输出嵌入信息来建模模型内在属性
仅评估全量微调场景：未考虑PEFT（LoRA、VPT等）范式下的可迁移性估计，而基础模型在PEFT下的适应特性可能与全量微调显著不同
伪聚类中心的近似粗糙：用预设的聚类中心替代真实微调后的嵌入分布，对于类别数极多或类间相似度高的任务可能引入偏差
模型池规模有限：实验中仅使用10-14个模型，未验证在大规模模型库（如100+模型）下的可扩展性

与相关工作的对比¶

LogME：最大证据对数的静态方法，计算最快（1.93s）但精度有限（tau_w = 0.45），忽略微调动态
LEAD：用常微分方程模拟logit空间演化，是动态方法的代表，但依赖LogME的评估管道，面对多样化模型泛化不足
PED：用势能模型预测演化状态，在部分数据集上出现负相关（Pets: -0.20, Aircraft: -0.20），泛化性差
SA (LDA)：通过扩散和吸引操作扰动特征空间，平均tau_w仅0.16，在多个数据集上给出错误排名
ETran：能量度量方法，平均tau_w = 0.14，在CIFAR100和SUN上出现负相关
ITM（本文）：隐式建模范式使其无需依赖特定演化假设，在所有10个数据集上tau_w > 0.4，是唯一在所有任务上正相关的方法

评分¶

新颖性: ⭐⭐⭐⭐ — 隐式建模+去参数化近似的框架设计新颖，将TE从显式规则推向概率建模
实验充分度: ⭐⭐⭐⭐ — 10个数据集、10个模型的全面对比，包含稳定性实验、消融和分割任务泛化
写作质量: ⭐⭐⭐⭐ — 结构清晰，数学推导连贯，从问题建模到框架设计逻辑通顺
价值: ⭐⭐⭐⭐ — 提出了更具泛化性的TE范式，对大规模模型选择有实际意义，但PEFT场景空缺