跳转至

PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation

会议: CVPR 2025
arXiv: 2412.03177
代码: GitHub
领域: Image Generation
关键词: 个性化图像生成, 偏好优化, 补丁级DPO, 免微调生成, 质量估计

一句话总结

提出PatchDPO,通过patch级别的质量估计替代传统DPO的整图偏好判断,对预训练个性化生成模型进行第二阶段优化,在DreamBooth和Concept101数据集上单物体和多物体生成均达到SOTA。

研究背景与动机

免微调个性化图像生成(如IP-Adapter)虽然推理高效,但仅使用单阶段图像重建训练,导致生成图像在局部细节上与参考图不一致。DPO是改进预训练模型的有效手段,但存在关键问题:

  • 传统DPO仅判断整张图优劣:个性化生成中,不一致通常只出现在局部patch(如头部/背部/腿部),整图级"好/坏"标签不准确
  • 错误传播:将包含部分高质区域的图标为"差",模型会错误地远离这些好区域
  • 标注成本:patch级别的人工标注不可行

核心思路:利用预训练视觉模型自动估计每个patch的质量,在DPO中给予细粒度反馈。

方法详解

整体框架

PatchDPO三阶段流程: 1. 数据构建:用SD生成干净背景的参考图,再用目标模型生成对应图 2. Patch质量估计:自监督训练视觉模型提取patch特征 → patch-to-patch对比计算质量分数 3. 加权训练:高质量patch高权重、低质量patch低权重的DPO训练

关键设计1:Patch-to-Patch质量比较

  • 功能:自动、无需人工标注地估计生成图每个patch的质量
  • 核心思路:用预训练视觉模型 \(f\) 分别提取参考图和生成图的特征图 \(f(\bm{x}_{ref}), f(\bm{x}_{gen}) \in \mathbb{R}^{H \times W \times D}\)。对每个生成patch \(\bm{x}_{gen}[h,w]\),计算其特征与参考图所有patch特征的最大余弦相似度:\(p(\bm{x}_{gen}[h,w]) = \max_{i,j} \frac{f(\bm{x}_{gen})[h,w] \cdot f(\bm{x}_{ref})[i,j]}{\|f(\bm{x}_{gen})[h,w]\|\|f(\bm{x}_{ref})[i,j]\|}\)
  • 设计动机:不要求patch位置严格对应(允许视角/场景变化),用最大相似度评估是否存在"对应的高质量patch"。HPatches数据集验证patch匹配精度可靠

关键设计2:自监督Patch特征增强

  • 功能:改进视觉模型的patch级特征提取能力
  • 核心思路:在HPatches等具有空间对应标注的数据上,对视觉模型(如ImageNet预训练的分类模型)进行自监督微调,使同一物体不同视角的对应patch特征更接近
  • 设计动机:分类模型擅长提取全局图像特征,但patch级特征可能不够精细。自监督训练专门优化patch粒度的特征区分能力,定量评估指标 \(S_{patch}\) 证实了改进效果

关键设计3:Patch加权训练策略

  • 功能:让模型学会保留高质量patch、修正低质量patch
  • 核心思路:对每个patch赋权重:高质量patch(\(p\) 高)给正权重让模型靠近,低质量patch(\(p\) 低)给负权重让模型远离。同时将原始参考图作为ground-truth生成图纳入训练——低质量patch对应的参考图patch给高权重,引导模型修正
  • 设计动机:传统DPO的win/lose二元标签太粗糙。加权方式提供连续梯度,高质区域保持不变,低质区域得到修正,避免"为了修正一个坏patch而毁掉好patch"

损失函数

改进的加权DPO损失,参考图作为anchor参与正则化。

实验关键数据

主实验:DreamBooth单物体个性化生成

方法 DINO↑ CLIP-I↑ CLIP-T↑
IP-Adapter 基线 基线 基线
IP-Adapter + DPO 小幅提升 小幅提升 持平
IP-Adapter + PatchDPO 显著提升 显著提升 SOTA

PatchDPO在IP-Adapter和ELITE两个基线上均带来显著提升。

消融实验

消融项 效果
整图DPO(无patch级别) 提升有限,部分指标反而下降
自然图作参考(vs SD生成) 复杂背景干扰训练,效果差
无自监督patch特征增强 patch匹配精度下降,DPO效果减弱
无参考图ground-truth注入 低质patch修正能力不足

关键发现

  • Patch级DPO显著优于整图级DPO(消融证实)
  • SD生成的干净背景参考图比自然图更适合PatchDPO训练
  • 多物体个性化生成同样受益,Concept101数据集也达到SOTA
  • PatchDPO对不同基线模型(IP-Adapter/ELITE)均有效

亮点与洞察

  1. DPO的细粒度化:从整图→patch的粒度提升是将LLM领域方法迁移到视觉任务时的必要适配
  2. 无需人工标注:利用视觉模型patch特征匹配自动构造偏好数据,完全自动化
  3. 通用性:作为"第二阶段训练"可插入任何预训练个性化生成模型

局限与展望

  • 依赖预训练视觉模型的patch特征质量,对该模型未覆盖的物体类别可能失效
  • SD生成的训练数据分布可能与真实用户参考图有差距
  • Patch质量估计假设参考图和生成图有可匹配的patch,对高度创意性生成可能不适用
  • 未来可探索其他patch质量度量(如DINO v2特征)

相关工作与启发

  • IP-Adapter:主要的被增强基线,PatchDPO在其上显著提升
  • Diffusion-DPO:整图级DPO方法,PatchDPO证明patch级别更有效
  • ProtoPNet:patch特征提取和对比的灵感来源

评分

⭐⭐⭐⭐ — Patch级DPO是个性化生成领域的重要改进,方法设计务实、通用且全自动化。patch特征质量依赖和数据分布差距是小遗憾。

相关论文