Understanding Task Transfer in Vision-Language Models¶

会议: CVPR 2026
arXiv: 2511.18787
代码: https://aka.ms/task-transfer-vlms (项目页)
领域: 多模态VLM
关键词: 视觉语言模型, 任务迁移, 感知任务, 微调, Perfection Gap Factor

一句话总结¶

本文首次系统研究了 VLM 在一个视觉感知任务上微调后对其他感知任务零样本性能的影响，提出 Perfection Gap Factor (PGF) 归一化指标量化跨任务迁移，在 Qwen-2.5-VL 三个尺度模型上揭示了任务迁移的结构性规律（正/负迁移团、任务角色分类、尺度依赖等），并证明 PGF 可指导数据选择提升微调效率。

研究背景与动机¶

领域现状：VLM 在多模态基准上表现优秀，但在基础视觉感知任务（深度估计、计数、目标定位等）上仍落后于人类和专家模型。在 BLINK 基准上，最好的模型（GPT-4o）也只有 60%，而人类达 95%。实践中通常用 LoRA 等方法在特定感知任务上微调来弥补差距。
现有痛点：对一个感知任务微调后，模型在其他感知任务上的表现变化是不可预测的——可能是正迁移也可能是负迁移。这种不确定性使得任务特定微调存在风险，但目前缺乏系统性研究来理解这种跨任务影响。
核心矛盾：VLM 的内部表示如何在不同感知任务间共享或竞争是未知的。不同任务可能依赖相同的底层视觉特征（互相促进），也可能争夺有限的模型容量（互相干扰）。
本文目标 回答一个核心问题：在 VLM 上微调一个感知任务，如何影响其在其他感知任务上的零样本表现？如何量化和利用这种跨任务关系？
切入角度：与 Taskonomy（需要在源和目标任务都做迁移学习）不同，本文研究的是零样本跨任务迁移——只微调源任务，不在目标任务上做任何训练。
核心 idea：通过 Perfection Gap Factor 归一化指标系统量化 VLM 感知任务间的零样本迁移关系，发现跨任务迁移具有结构性规律，可用于指导高效微调。

方法详解¶

整体框架¶

选择 Qwen-2.5-VL 的三个变体（3B、7B、32B），在 BLINK 基准的 13 个感知任务上分别独立微调（LoRA），然后评估每个微调模型在所有 13 个任务验证集上的表现。构建 13×13 的迁移矩阵，用 PGF 填充，分析迁移规律。

关键设计¶

Perfection Gap Factor (PGF):
- 功能：归一化量化跨任务迁移的程度
- 核心思路：定义 \(\mu_{i \to j} = \frac{\text{Acc}(\mathcal{M}(T_i), T_j) - \text{Acc}(\mathcal{M}, T_j)}{U_j - \text{Acc}(\mathcal{M}, T_j) + \epsilon}\)，其中分子是微调后的准确率变化，分母是到上界的剩余差距。PGF=0 表示无迁移，正值表示正迁移，负值表示负迁移。上界 \(U_j\) 默认设为 100%。
- 设计动机：传统的准确率增益无法跨任务比较。一个已接近天花板的任务提升 3% 远比低基线任务提升 10% 更有意义。PGF 通过归一化剩余提升空间，使不同难度任务间的迁移效果可比。如一个 90%→93% 的任务（PGF=0.60）远比 40%→50% 的任务（PGF=0.18）更显著。
Task Transferability（迁移性）:
- 功能：衡量源任务对其他任务的整体正/负影响力
- 核心思路：分别计算正迁移性 \(\Delta(i)^+ = \frac{1-e^{-p/N}}{p}\sum \mu_{i\to j} \mathbf{1}_{\mu>0}\) 和负迁移性 \(\Delta(i)^-\)，其中指数加权因子 \((1-e^{-p/N})/p\) 同时考虑了影响的广度（影响多少任务）和强度（平均迁移大小）。
- 设计动机：区分"在少数任务上有大提升"和"在多数任务上有小提升"的不同模式。
Malleability（可塑性）:
- 功能：衡量目标任务被其他源任务微调影响的敏感程度
- 核心思路：与迁移性对偶，聚合所有源任务对目标任务的 PGF 分数，同样区分正负。正可塑性高的任务容易从其他任务的微调中获益。
- 设计动机：完整刻画双向迁移关系——不仅要知道"谁影响别人"，还要知道"谁容易被影响"。
Task Cliques（任务团）:
- 功能：发现互相正迁移或互相负迁移的任务子集
- 核心思路：在迁移图中寻找所有有序任务对 \((T_i, T_j)\) 都呈现一致正/负迁移的完全子图。用 Wilcoxon 检验跨 seed 验证统计显著性。32B 模型发现了最大正团（9个任务），小模型为3-4个任务。
- 设计动机：揭示任务间的互利/互害结构关系。
Task Personas（任务角色）:
- 功能：将任务分为四种角色类型
- 核心思路：Donor（施主）= 跨模型尺度持续高正迁移性的任务（如 Semantic Correspondence）；Pirate（海盗）= 持续高负迁移性（如 Functional Correspondence）；Sponge（海绵）= 高正可塑性，容易从他人获益（如 Visual Similarity、Relative Depth）；Sieve（筛子）= 高负可塑性，容易被他人伤害（如 Forensic Detection）。
- 设计动机：为实践者提供可操作的微调指导。

损失函数 / 训练策略¶

使用 QLoRA 微调 Qwen-2.5-VL，4-bit 量化。从 BLINK 原始数据源构建训练集，保持与 BLINK 相同的任务定义和回答格式。每个实验重复 4 个随机种子。

实验关键数据¶

主实验：PGF 迁移热力图关键发现¶

发现	3B	7B	32B
平均正迁移性	低	中	高（随模型增大单调增）
最大正团大小	3-4	3-4	9
Donor 任务	SC	SC	SC（Semantic Corr.跨尺度一致）
Pirate 任务	FC	FC	FC（Functional Corr.跨尺度一致）
Sponge 任务	VS, RD, RR	VS, RD, RR	VS, RD, RR
Sieve 任务	FD	—	FD（Forensic Detection）

PGF 引导数据选择 vs 随机选择（Qwen-2.5-VL 7B）¶

目标任务	直接微调	随机混合	PGF引导混合	说明
Jigsaw	baseline	低于直接	超过直接微调	PGF 选择优于直接监督
Object Localization	baseline	低于直接	超过直接微调	PGF 选择优于直接监督
其他任务	baseline	各异	一致优于随机	PGF 引导稳定有效

关键发现¶

尺度效应：模型越大，正迁移越强（32B 正迁移最显著），但负迁移无明确趋势
感知层级：低层任务（Relative Depth、Relative Reflectance）迁移性和可塑性都最高
粒度层级：image-level 任务的正迁移性最大，pixel-level 和 image-level 任务都有高可塑性
视频迁移：在 VSI-Bench 视频任务上也观察到类似模式，Relative Reflectance 仍是 donor，Forensic Detection 仍是 pirate
PGF 引导：在 Jigsaw 和 Object Localization 上，PGF 引导的混合数据甚至超过了直接在目标任务上微调

亮点与洞察¶

PGF 指标设计巧妙：通过归一化剩余提升空间，解决了不同难度任务间迁移效果不可比的核心问题。正值上界为1、负值下界为 \(-(m-1)\) 的不对称性也是合理的——接近满分时退步比远离满分时退步更严重。
任务角色分类：Donor/Pirate/Sponge/Sieve 的分类框架非常直观实用，为多任务微调策略提供了即刻可用的指导。
反直觉发现：PGF 引导的间接混合数据微调可以超过直接在目标任务上微调，说明正迁移的叠加效应有时优于单一监督。
低层感知任务的核心地位：低层任务（深度、反射率）既是最好的 donor 又是最好的 sponge，暗示 VLM 的早期视觉特征是高度可复用和可适应的。

局限与展望¶

基于多选题格式的基准，可能限制了开放式生成场景下迁移模式的发现
仅使用 Qwen-2.5-VL 系列模型，其他架构（如 LLaVA、InternVL）上的泛化性未验证
上界 \(U_j\) 默认设为 100%，对不同任务可能不合理（有些任务人类也达不到 100%）
未研究多任务联合微调的迁移效应（本文仅考虑单源任务微调）
PGF 引导数据选择的实验仅限于 7B 模型，需要更多模型和任务组合的验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究 VLM 感知任务的零样本跨任务迁移，PGF 指标设计合理
实验充分度: ⭐⭐⭐⭐⭐ 三个模型尺度、13个任务、4个种子、视频扩展、数据选择应用，覆盖极广
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，图表丰富，分析有深度
价值: ⭐⭐⭐⭐ 对 VLM 微调实践有直接指导意义，PGF 指标可广泛复用