跳转至

Implicit Modeling for Transferability Estimation of Vision Foundation Models

会议: NeurIPS 2025
arXiv: 2510.23145
作者: Yaoyan Zheng, Huiqun Wang, Nan Zhou, Di Huang (北京航空航天大学)
代码: BUAAHugeGun/ITM
领域: self_supervised
关键词: 可迁移性估计, 预训练模型选择, 嵌入空间演化, 变分近似, 视觉基础模型

一句话总结

提出隐式可迁移性建模(ITM)框架,通过隐变量z隐式编码模型-任务对的迁移能力,结合分治变分近似(DVA)高效模拟嵌入空间演化,在10个下游任务和10个多样化预训练模型上的加权Kendall tau_w从此前最优的0.45提升至0.61。

研究背景与动机

问题背景

预训练-微调范式下,大量预训练模型公开可用,但不同架构、预训练策略的模型在不同下游任务上表现差异巨大。可迁移性估计(Transferability Estimation, TE)旨在以极低计算开销预测模型在目标任务上的性能排名,避免逐一微调的暴力搜索。

已有工作的不足

  • 静态统计方法(NCE、LEEP、LogME等)仅分析预训练嵌入空间的统计特性,忽略微调过程中的嵌入演化动态
  • 动态演化方法(PED、LEAD、SA等)虽尝试模拟嵌入空间的演化过程,但依赖手工设计的规则或理想化假设,无法全面捕捉模型属性和任务适应性
  • 现有方法主要在相似架构、监督预训练的CNN上评估,面对ViT架构和自监督策略(实例判别、遮蔽图像建模)时,不同模型的收敛行为差异导致估计精度大幅下降
  • 绝大多数方法仅支持图像分类,缺乏对语义分割等密集预测任务的适应能力

核心动机

模型在下游任务上的表现取决于两方面:(1)模型的内在属性(架构、预训练数据和策略);(2)下游任务的特性。二者的交互决定了适应动态。已有方法仅通过显式模拟嵌入演化来估计性能,未能充分建模二者交互。本文的核心思路是:用少量可学习参数隐式建模每个模型-任务对的可迁移性,使估计框架对模型多样性具有更好的泛化能力。

方法详解

整体框架:隐式可迁移性建模(ITM)

ITM将预训练模型的可迁移性解耦为一个隐变量z,并将微调后的嵌入空间表示为后验分布q(E_hat | E, z),将复杂的映射问题转化为概率估计框架。

分治变分近似(DVA)

Step 1:批次级分割(Batch-wise Division)

将全局嵌入空间E划分为K个子空间(实际中每个子空间对应一个mini-batch的嵌入),基于批次独立性假设,将后验分解为子空间后验的乘积:

q_psi(E_hat | E, z) = prod_{j=1}^{K} q_psi(E_hat_j | E_j, z)

引入条件映射f(·; W_z)将隐变量z嵌入到每个batch的预训练嵌入中,生成合成后验条件 Theta_j = f(E_j; W_z)。W_z即为隐式编码可迁移性的可学习参数。

Step 2:伪聚类中心生成(Pseudo-cluster Center Generation)

利用现代预训练模型在训练数据上强收敛的特性——不同类别的表示倾向于形成分离的聚类——生成伪聚类中心作为嵌入空间的目标最终状态。可通过one-hot向量、高维随机向量或PCA特征向量实现,并利用初始特征的均值和标准差进行偏移加速收敛。

Step 3:去参数化近似(Deparametric Approximation)

关键创新:消除对可学习参数W_g的依赖。以MSE损失为例,推导映射层g的梯度下降更新规则,得到子空间演化的闭式迭代公式:

E_j^(n+1) = (I - eta * C) * E_j^(n) + eta * C * E_hat_j

其中 C = (1/B) * Theta_j * Theta_j^T 是仅依赖于初始条件的常量矩阵。这一公式无需对每个子空间进行显式迭代优化,大幅降低计算开销。

训练与评估流程

  • 训练阶段:将隐变量z通过W_z嵌入到嵌入子空间中,结合去参数化近似执行DVA更新,并利用下游任务目标损失(如交叉熵)优化W_z
  • 评估阶段:计算演化后嵌入空间在评估集上的准确率作为估计分数
  • 训练迭代500步,每100步评估一次,取最高分作为最终估计

实验关键数据

实验1:主实验——10个数据集上的可迁移性估计

使用10个预训练模型(4个监督CNN + 3个对比学习ViT + 3个MIM ViT),在10个分类数据集上对比7种方法。

方法 Cal101 Cars CIFAR100 CIFAR10 DTD Aircraft Flowers Food Pets SUN 平均tau_w
NLEEP 0.47 0.04 0.32 0.48 0.57 0.13 0.62 0.24 0.30 0.01 0.32
LogME 0.71 0.36 0.56 0.61 0.61 0.22 0.77 0.15 0.14 0.38 0.45
PARC 0.08 0.00 -0.07 0.25 0.42 0.12 0.62 0.19 0.10 0.01 0.17
SFDA 0.59 0.07 0.48 0.79 0.13 0.18 -0.39 0.33 0.28 0.09 0.25
ETran 0.13 -0.06 -0.14 0.21 0.36 0.27 0.08 0.23 0.38 -0.06 0.14
PED 0.32 -0.01 0.51 0.77 0.06 -0.20 0.16 0.60 -0.20 0.07 0.21
SA (LDA) 0.31 -0.11 -0.06 0.34 0.33 0.22 0.14 0.18 0.33 -0.12 0.16
ITM (本文) 0.56 0.61 0.59 0.69 0.77 0.43 0.65 0.44 0.73 0.62 0.61

ITM平均tau_w为0.61,相比此前最优LogME的0.45提升35.6%。五次不同随机种子运行结果为0.60 +/- 0.01,稳定性极高。运行时间仅8.42秒(CPU),相比特征提取的738秒(GPU)可忽略不计。

实验2:语义分割任务泛化

在CamVid和Cityscapes两个密集预测数据集上,使用5个预训练ViT模型验证ITM对分割任务的泛化能力。

数据集 指标 MoCov3-B16 DINO-B16 MAE-B16 SimMIM-B16 MAE-L16 tau_w
CamVid mIoU 58.11 60.05 63.99 64.52 68.25 0.61
ITM分数 85.87 86.41 88.58 83.85 89.03
Cityscapes mIoU 40.06 41.45 44.21 43.72 47.33 0.72
ITM分数 79.77 79.14 83.11 78.03 83.86

ITM在分割任务上分别取得tau_w = 0.61和tau_w = 0.72,成功选出最优模型MAE-L16,验证了其跨任务泛化能力。

消融实验补充

损失函数 平均tau_w
Cross-Entropy 0.554
MAE 0.566
MSE 0.608

MSE损失函数在去参数化近似中表现最优,其平滑特性有助于伪聚类更新的稳定性。批次大小256、迭代500步为最佳配置。

亮点

  • 隐式建模范式创新:将可迁移性编码为隐变量z,通过可学习参数W_z自适应捕捉模型-任务对的内在属性交互,而非依赖手工设计的演化规则
  • 去参数化近似的优雅推导:通过闭式展开梯度下降,消除了显式优化映射层参数的需要,在保持估计精度的同时大幅降低计算开销
  • 跨架构与跨任务泛化:在CNN和ViT混合模型池、监督/对比/MIM混合预训练策略下均表现稳定,且成功拓展到语义分割任务
  • 显著的性能提升:平均tau_w从0.45提升至0.61,且0.60 +/- 0.01的低方差体现了极强的鲁棒性

局限与展望

  • 仍依赖嵌入空间判别性:无法直接处理检测或视觉-语言任务等复杂监督场景
  • 仅利用最终输出特征:未充分利用中间层表示或丰富的输出嵌入信息来建模模型内在属性
  • 仅评估全量微调场景:未考虑PEFT(LoRA、VPT等)范式下的可迁移性估计,而基础模型在PEFT下的适应特性可能与全量微调显著不同
  • 伪聚类中心的近似粗糙:用预设的聚类中心替代真实微调后的嵌入分布,对于类别数极多或类间相似度高的任务可能引入偏差
  • 模型池规模有限:实验中仅使用10-14个模型,未验证在大规模模型库(如100+模型)下的可扩展性

与相关工作的对比

  • LogME:最大证据对数的静态方法,计算最快(1.93s)但精度有限(tau_w = 0.45),忽略微调动态
  • LEAD:用常微分方程模拟logit空间演化,是动态方法的代表,但依赖LogME的评估管道,面对多样化模型泛化不足
  • PED:用势能模型预测演化状态,在部分数据集上出现负相关(Pets: -0.20, Aircraft: -0.20),泛化性差
  • SA (LDA):通过扩散和吸引操作扰动特征空间,平均tau_w仅0.16,在多个数据集上给出错误排名
  • ETran:能量度量方法,平均tau_w = 0.14,在CIFAR100和SUN上出现负相关
  • ITM(本文):隐式建模范式使其无需依赖特定演化假设,在所有10个数据集上tau_w > 0.4,是唯一在所有任务上正相关的方法

评分

  • 新颖性: ⭐⭐⭐⭐ — 隐式建模+去参数化近似的框架设计新颖,将TE从显式规则推向概率建模
  • 实验充分度: ⭐⭐⭐⭐ — 10个数据集、10个模型的全面对比,包含稳定性实验、消融和分割任务泛化
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,数学推导连贯,从问题建模到框架设计逻辑通顺
  • 价值: ⭐⭐⭐⭐ — 提出了更具泛化性的TE范式,对大规模模型选择有实际意义,但PEFT场景空缺

相关论文