跳转至

DiTASK: Multi-Task Fine-Tuning with Diffeomorphic Transformations

会议: CVPR 2025
arXiv: 2502.06029
代码: 有(见论文)
领域: 多任务学习 / 参数高效微调
关键词: 微分同胚变换, 奇异值保持, 多任务学习, PEFT, Vision Transformer

一句话总结

提出 DiTASK,利用连续分段仿射 (CPAB) 微分同胚变换对预训练权重矩阵的奇异值进行平滑变换而保持奇异向量不变,以每层仅约 32 个参数实现全秩更新的多任务微调,在 PASCAL MTL 上以 75% 更少的参数超越 MTLoRA 26.27%。

研究背景与动机

领域现状:参数高效微调 (PEFT) 方法如 LoRA 在单任务微调中表现良好,但在多任务学习 (MTL) 中表现不佳。LoRA 的低秩更新迫使多个任务在同一受限子空间中竞争,导致任务干扰。

现有痛点:LoRA 等方法直接修改权重矩阵的奇异向量,破坏了预训练模型学到的特征空间结构。在 MTL 中,不同任务的最优子空间可能完全不同,强制共享同一低秩空间会导致性能下降。MTLoRA 为每个任务独立建模但无法利用任务间的协同效应。

核心矛盾:参数效率与多任务性能之间的 trade-off——降低可训练参数会恶化任务干扰问题。

本文目标 如何在保持预训练特征空间结构的前提下,用极少参数实现不干扰的多任务适配。

切入角度:从 SVD 分解角度分析权重矩阵——奇异向量编码特征方向,奇异值编码特征强度。保持奇异向量不变(保持特征方向),仅通过微分同胚变换调整奇异值(调整特征强度),即可实现有效适配。

核心 idea:用微分同胚变换只变奇异值不变奇异向量,以 ~32 个参数/层实现全秩多任务适配。

方法详解

整体框架

基于 Swin Transformer,对每个预训练权重矩阵 \(W = U\Sigma V^\top\) 做 SVD 分解,冻结 \(U, V\),用 CPAB 微分同胚 \(f^\theta\) 变换奇异值得到 \(W_A = U \cdot \text{diag}(f^\theta(\sigma_1), ..., f^\theta(\sigma_p)) \cdot V^\top\)。每层有两组变换参数:联合适配 \(\theta_j\)(学习任务协同)和任务特定 \(\theta_k\)(学习任务差异)。

关键设计

  1. CPAB 微分同胚奇异值变换:

    • 功能:以极少参数实现全秩权重更新
    • 核心思路:CPAB 将闭区间分为 \(\mathcal{N}_P\) 段,每段定义分段仿射速度场,通过积分得到光滑、可逆、单调的微分同胚映射 \(f^\theta\)。将其应用于奇异值 \(\sigma_i \mapsto f^\theta(\sigma_i)\),只需 \(\mathcal{N}_P - 1 \approx 32\) 个参数。微分同胚的单调性保证变换后的奇异值保持原有大小顺序(特征重要性相对关系不变)
    • 设计动机:LoRA 用 \(O(r(c_1+c_2))\) 参数做低秩更新,DiTASK 用 \(O(\mathcal{N}_P)\) 参数做全秩更新,参数量小得多且不破坏特征空间
  2. 联合+任务特定双路适配:

    • 功能:同时学习任务协同效应和任务独特性
    • 核心思路:在每个 Swin Transformer stage 中,除最后一个 block 外使用联合变换参数 \(\theta_j\)(所有任务共享),最后一个 block 使用任务特定参数 \(\theta_k\)。联合参数捕获跨任务的通用适配,任务特定参数捕获个体差异
    • 设计动机:MTLoRA 的纯任务独立方案无法利用任务间的互补信息,纯共享方案又会导致干扰
  3. 特征空间保持:

    • 功能:作为隐式正则化防止灾难性遗忘
    • 核心思路:奇异向量 \(U, V\) 完全冻结,只变奇异值。用图像去噪实验直观验证:保持奇异向量只调奇异值的恢复质量(PSNR)显著优于 LoRA 风格的低秩修正
    • 设计动机:奇异向量编码了预训练学到的特征方向,是最不应该被改变的部分

损失函数 / 训练策略

标准 MTL 加权多任务损失 \(\min_\Theta \sum_k \lambda_k \mathcal{L}_k\)。仅优化 CPAB 速度场参数 \(\theta\),所有其他参数冻结。

实验关键数据

主实验

方法 SemSeg (mIoU↑) Human Parts (mIoU↑) Saliency (mIoU↑) Normals (rmse↓) Δm (%) 参数 (M)
单任务全微调 67.21 61.93 62.35 17.97 0.00 112.62
MTLoRA (r=64) 67.90 59.84 65.40 16.60 +2.55 6.40
DiTASK (单任务) 72.20 62.33 65.70 16.55 +5.33 1.60
DiTASK (MTL) 69.66 62.02 65.00 17.10 +3.22 1.61

消融实验

配置 说明
保持奇异向量 vs 不保持 保持奇异向量的 PSNR 显著更高(图像去噪验证)
联合+任务特定 vs 仅联合 双路设计优于任一单路
\(\mathcal{N}_P = 32\) 默认设置,增大无显著提升

关键发现

  • DiTASK 单任务微调以 1.60M 参数超越全微调(112.62M)的 Δm 5.33%,参数效率极高
  • 相比 MTLoRA (r=64, 6.40M),DiTASK MTL (1.61M) 用 75% 更少参数获得 +0.67% Δm 提升
  • 全秩更新(通过微分同胚实现)是超越低秩方法的关键——低秩约束在 MTL 中尤其有害

亮点与洞察

  • 数学优雅性:从 SVD 角度出发,用微分同胚保持奇异向量+变换奇异值,理论清晰、实现简洁
  • 极致参数效率:每层约 32 个参数就能做全秩更新,比 LoRA (rank=4) 还少一个数量级
  • 可迁移思路:保持特征方向、调整特征强度的范式可以推广到任何需要高效适配预训练模型的场景

局限与展望

  • 仅在 PASCAL MTL 和 NYUD 两个密集预测基准上验证,未测试分类/生成任务
  • CPAB 变换对所有奇异值施加相同的函数,无法为每个奇异值施加独立变换
  • Swin Transformer 特定的架构设计,未验证在 ViT/DINOv2 等骨干上的效果

相关工作与启发

  • vs LoRA/MTLoRA: LoRA 做低秩更新可能破坏奇异向量,DiTASK 做全秩更新保持奇异向量,理论和实验都更优
  • vs SVFT: SVFT 稀疏化奇异值,DiTASK 用微分同胚平滑变换奇异值,保持特征重要性顺序
  • vs Adapter: Adapter 插入额外模块增加推理开销,DiTASK 直接修改权重无额外推理成本

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 微分同胚+SVD 的结合非常新颖且有理论深度
  • 实验充分度: ⭐⭐⭐⭐ PASCAL MTL 验证充分,但任务类型单一
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨
  • 价值: ⭐⭐⭐⭐ 为 MTL 微调提供了新范式

相关论文