DEFT: Decompositional Efficient Fine-Tuning for Text-to-Image Models¶
会议: NeurIPS 2025
arXiv: 2509.22793
代码: 有(DEFT GitHub)
领域: 图像生成 / 模型压缩
关键词: 高效微调, T2I, LoRA变体, 子空间分解, 个性化生成
一句话总结¶
提出DEFT——将权重更新分解为两个可训练矩阵的组合:(1)低秩子空间的正交投影和(2)子空间内的低秩调整,相比LoRA在T2I个性化中CLIP-T从0.341提升到0.361(DreamBench+),在统一模型上实现风格迁移和条件生成的SOTA。
背景与动机¶
T2I模型的高效微调需要平衡三个目标:(1) 对齐目标分布(如个性化新概念);(2) 保持指令遵循能力;(3) 维持编辑灵活性。LoRA通过低秩矩阵注入适应新任务但不控制更新的方向;PaRa通过正交投影约束更新方向但缺乏灵活性。
核心问题¶
如何设计一种既能控制微调方向又保持灵活调整能力的高效微调方法?
方法详解¶
整体框架¶
DEFT将权重更新分解为:W_total = (I - PP^T)W_0 + PR,其中P定义子空间(正交投影消除不相关方向),R提供子空间内的灵活调整。
关键设计¶
- 双组件分解:
- (I-PP^T)W_0: 投影到P的正交补空间——移除W_0中不需要的成分
- PR: 在P定义的子空间内注入任务特定的适应——扩展列空间
-
如果col(P) ⊄ col(W_0),适配后的列空间被扩展,允许学习新方向
-
多种分解策略: 支持QR分解、截断SVD、低秩矩阵分解(LRMF)、非负矩阵分解(NMF)、特征分解等
-
与LoRA/PaRa的关系:
- LoRA: W' = W + BA(只做加法更新,不控制方向)
- PaRa: W' = W - QQ^T W(只做投影减法,缺乏灵活调整)
- DEFT: W' = (I-PP^T)W + PR(投影+调整,两者都有)
实验关键数据¶
DreamBench+ 个性化(CLIP-T↑):
| 方法 | CLIP-T |
|---|---|
| Textual Inversion | 0.302 |
| DreamBooth | 0.323 |
| DreamBooth LoRA | 0.341 |
| PaRa | 0.354 |
| DEFT | 0.361 |
VisualCloze统一生成: Canny Edge条件下DEFT的CLIP-Score 95.78 vs OmniGen 95.45,DINOv2 一致性90.65 vs 87.60;风格迁移Image Score 0.69(SOTA)
消融实验要点¶
- 分解方法: QR分解最优,SVD次之
- Rank选择: rank=32是效率和效果的最佳均衡
- DEFT vs LoRA: DEFT在保留模型编辑能力方面显著优于LoRA(减少过拟合)
- 多概念组合: DEFT支持多概念个性化生成,减少概念间干扰
亮点¶
- 理论清晰: 从线性代数的列空间扩展角度解释为什么DEFT优于LoRA/PaRa
- 通用性强: 从SD v1.5到SDXL到OmniGen统一模型都适用
- 任务覆盖广: 个性化、风格迁移、条件生成、多概念组合、场景适应
局限性 / 可改进方向¶
- 两个可训练矩阵P和R比LoRA的AB多了投影计算开销
- 仅在扩散模型上验证,AR图像生成模型未测试
- P矩阵的初始化策略对效果影响大但缺乏自动选择机制
与相关工作的对比¶
- vs LoRA: DEFT通过正交投影控制更新方向,减少过拟合、保持编辑性
- vs PaRa: DEFT多了PR调整项,列空间可扩展而非仅收缩
- vs Custom Diffusion: Custom Diffusion微调特定层,DEFT更灵活且参数更少
启发与关联¶
- DEFT的分解思路可以推广到VLM的高效微调——如BranchLoRA的非对称设计可以借鉴DEFT的子空间投影
- 与L4Q(QAT+LoRA融合)结合:在量化环境下使用DEFT替代LoRA可能获得更好的微调效果
评分¶
- 新颖性: ⭐⭐⭐⭐ 双组件分解idea清晰,有数学基础
- 实验充分度: ⭐⭐⭐⭐ DreamBench+/VisualCloze/InsDet多数据集验证
- 写作质量: ⭐⭐⭐⭐ Figure 2的三种方法对比图直观
- 价值: ⭐⭐⭐⭐ T2I高效微调领域的实用改进
会议: NeurIPS 2025
arXiv: 2509.22793
代码: https://github.com/MAXNORM8650/DEFT
领域: 图像生成 / 参数高效微调
关键词: efficient fine-tuning, LoRA替代, 低秩分解, personalization, T2I, 可编辑性保持
一句话总结¶
提出DEFT,一种将权重更新分解为低秩子空间补空间投影+低秩更新的高效微调框架,通过两个可训练低秩矩阵分别定义子空间和在子空间内适应参数,在DreamBooth/DreamBench+个性化、InsDet物体场景适应和VisualCloze统一生成框架上均达到SOTA,同时保持可编辑性。
背景与动机¶
T2I模型的高效微调需要在三个目标间取得平衡:(1) 目标分布对齐——学习少量图像中的新概念(个性化);(2) 指令能力保持——统一多任务能力;(3) 可编辑性保持——生成图像需响应多样化prompt/in-context输入。LoRA是目前最流行的PEFT方法,但在T2I微调中面临概念学习和可编辑性之间的trade-off——过度微调导致模型"忘记"如何响应新prompt。
核心问题¶
如何设计一种比LoRA更好的high效微调范式,在学习新概念的同时更好地保持模型的可编辑性和通用指令能力?
方法详解¶
整体框架¶
DEFT将权重矩阵的更新ΔW分解为两个正交的部分:(1) 投影到低秩矩阵A定义的子空间的补空间上的分量;(2) 通过另一个低秩矩阵B在该子空间内进行的灵活参数调整。只有A和B两个小矩阵是可训练的。
关键设计¶
-
双矩阵分解策略:不同于LoRA的单一低秩更新ΔW=AB^T,DEFT将更新分解为子空间定义(A矩阵)和子空间内适应(B矩阵)两部分。A定义了"哪些方向上需要修改",B控制"在这些方向上修改多少"。这种分离使得模型可以更精确地控制哪些特征被适应,哪些被保留。
-
补空间投影的保护作用:通过将部分更新投影到子空间的补空间,DEFT隐式地保护了原始权重的某些重要特征不被微调破坏——这是保持可编辑性的关键。LoRA的全低秩更新没有这种保护机制。
-
多任务统一适应:DEFT不仅适用于个性化(DreamBooth),还在物体/场景适应(InsDet)和统一图像生成框架(VisualCloze)上有效。在VisualCloze这种需要处理多种不同视觉任务的框架中,DEFT的可编辑性保持尤其重要。
损失函数 / 训练策略¶
标准的扩散去噪loss,仅训练A和B两个低秩矩阵,其他参数冻结。
实验关键数据¶
- DreamBooth/DreamBench+(个性化):SOTA性能
- InsDet(物体场景适应):超越LoRA和其他PEFT方法
- VisualCloze(统一生成框架+ICL):在Stable Diffusion和统一模型上均表现最优
- 在所有场景中保持了更好的可编辑性(响应多样prompt的能力)
消融实验要点¶
- DEFT vs LoRA:相同参数预算下DEFT在质量和可编辑性上均更优
- 两个矩阵的作用分离确认:A定义子空间,B做适应
- 补空间投影对可编辑性保持至关重要
亮点¶
- 超越LoRA的新PEFT范式:提供了T2I微调中LoRA的系统性替代
- 可编辑性保持是关键差异化——LoRA在个性化后可编辑性下降,DEFT通过补空间投影缓解
- 在VisualCloze上的验证特别有价值——证明DEFT适用于统一多任务生成框架
- 数学框架优雅:双矩阵分解→子空间定义+子空间内适应,比LoRA更有结构
- 开源代码
局限性 / 可改进方向¶
- 两个矩阵比LoRA的一个多了额外编码,实现复杂度略高
- 在超大规模模型(如FLUX 12B)上的扩展性未验证
- 补空间的维度选择可能需要任务特定调优
与相关工作的对比¶
- vs. LoRA:LoRA做单一低秩更新;DEFT做分解式双低秩更新——更好平衡学习和保持
- vs. DreamBooth+LoRA:DEFT在个性化质量和可编辑性上均超越
- vs. ControlLoRA/IP-Adapter:这些是任务特定适配器;DEFT是通用PEFT框架
启发与关联¶
- DEFT的子空间保护思想可以迁移到VLM的微调——保护语言能力不被视觉微调破坏
- 与EVEv2的Divide-and-Conquer思想互补——模态内的PEFT也需要"分而治之"
评分¶
- 新颖性: ⭐⭐⭐⭐ 双矩阵分解的PEFT方案比LoRA更有结构性
- 实验充分度: ⭐⭐⭐⭐ DreamBooth+InsDet+VisualCloze三场景验证
- 写作质量: ⭐⭐⭐⭐ 数学框架清晰
- 价值: ⭐⭐⭐⭐ 提供了LoRA的系统性替代,对T2I社区有实用价值