跳转至

Training-Free Reward-Guided Image Editing via Trajectory Optimal Control

会议: ICLR 2026
arXiv: 2509.25845
代码: 无
领域: 扩散模型 / 图像编辑
关键词: Optimal Control, Reward-Guided, Training-Free, Adjoint State, Pontryagin's Maximum Principle

一句话总结

将 reward-guided 图像编辑重新建模为轨迹最优控制问题,将扩散/Flow模型的反向过程视为可控轨迹,通过基于 Pontryagin 最大值原理(PMP)的伴随状态迭代优化整条轨迹,在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

研究背景与动机

  1. 领域现状:Reward-guided 采样在 T2I 生成中已取得成功(DPS、FreeDoM、TFG),通过利用可微分奖励函数在推理时引导生成过程。但这些方法都设计用于采样,未专门针对编辑。
  2. 现有痛点:Reward-guided 编辑比生成更难——既要最大化奖励又要保持源图像核心身份。朴素方法(反演+引导采样)效果差:对复杂非线性奖励函数,基于中间噪声图像或单步近似的引导会降低结构忠实度。直接梯度上升虽方向正确但不考虑图像先验,产生对抗性样本。
  3. 核心矛盾:现有 guidance 方法在编辑场景中面临两难——引导过强则破坏结构,引导过弱则奖励提升不足。且它们缺乏对 guidance scale 选择的理论支撑,需要大量超参调整。
  4. 本文要解决什么? 如何在不训练模型的情况下,利用任意可微分奖励函数引导编辑,同时保持与源图的结构一致性?
  5. 切入角度:最优控制理论——将问题从"单步引导"提升为"全轨迹优化"。
  6. 核心idea一句话:优化整条生成轨迹(而非单步引导中间状态)来同时最大化终端奖励和保持与源图的一致性。

方法详解

整体框架

给定源图像 \(\bm{x}_1\),先通过确定性反演生成初始轨迹 \(\{\bm{x}_t\}_{t=T}^{1}\)。然后迭代优化这条轨迹:每次迭代包含三步——(1) 反向计算伴随状态 \(p_t\);(2) 更新控制量 \(u_t\);(3) 用更新后的控制量前向模拟新轨迹。最终取终点 \(\bm{x}_1^{u^*}\) 作为编辑结果。

关键设计

  1. 统一 SDE 框架:将扩散模型和 Flow Matching 模型的采样过程统一为: $\(d\bm{x}_t = b(\bm{x}_t, t) dt + \sigma_t d\mathbf{B}_t\)$ 其中漂移项 \(b\) 根据模型类型不同有不同表达式(Eq. 4-5),允许用单一理论框架同时处理两类模型。

  2. 最优控制问题建模:引入控制项 \(u_t\) 到漂移中,求解: $\(\min_{u \in \mathcal{U}} \int_T^1 \frac{1}{2} \|u(\bm{x}_t^u, t)\|^2 dt - r(\bm{x}_1^u)\)$ $\(\text{s.t.} \quad d\bm{x}_t^u = (b(\bm{x}_t^u, t) + u(\bm{x}_t^u, t)) dt + \sigma_t d\mathbf{B}_t, \quad \bm{x}_T^u = \bm{x}_T\)$ 目标:终端奖励 \(r(\bm{x}_1^u)\) 最大化 + 控制量范数最小化(正则化,确保轨迹不偏离流形太远)。

  3. 基于 PMP 的迭代求解:PMP 给出最优轨迹的必要条件(Eq. 8-10),涉及三个耦合微分方程——状态方程(前向)、伴随方程(反向)、最优控制条件(\(u_t^* = -p_t^*\))。由于联合求解不可行,采用类坐标下降的迭代方法:

  4. Step 1:固定当前轨迹 \(\bm{x}_t\),反向求解伴随方程得到 \(p_t\)(终端条件 \(p_1^* = -\nabla_{\bm{x}_1} r(\bm{x}_1^*)\)
  5. Step 2:按 \(u_t = u_t - \lambda(u_t + p_t)\) 更新控制量
  6. Step 3:用更新后的 \(u_t\) 前向模拟新轨迹 \(\bm{x}_t\)

伴随方程中的 Jacobian-vector product \([\nabla_{\bm{x}_t} b(\bm{x}_t^*, t)]^\top p_t^*\) 通过自动微分高效计算。

  1. 反演策略:扩散模型用 DDIM 反演,Flow Matching 用时间反转 ODE,均为确定性反演(\(\sigma_t = 0\)),确保初始轨迹忠实再现源图像。

损失函数 / 训练策略

  • 无训练方法:纯推理时优化
  • 核心损失为最优控制的代价泛函:终端奖励 + 控制量范数正则化
  • 允许用权重 \(w\) 缩放奖励函数 \(r(\cdot)\),统一控制 guidance scale
  • 使用 StableDiffusion 1.5(扩散)和 StableDiffusion 3(Flow Matching)作为基础模型
  • 各任务使用不同奖励函数:ImageReward(人类偏好)、Gram 矩阵差异(风格迁移)、分类器 logit(反事实)、CLIPScore(文本引导编辑)

实验关键数据

主实验(Human Preference 任务,SD 1.5)

方法 ImageReward↑ HPSv2↑ CLIPScore↑ Aesthetic↑ LPIPS↓ CLIP-I_src↑
None 0.154 0.239 0.289 6.052 0.000 1.000
Gradient Ascent 1.909 0.225 0.288 5.578 0.147 0.920
Inv+DPS 1.599 0.232 0.265 5.828 0.288 0.851
Inv+TFG 1.705 0.236 0.273 5.633 0.293 0.840
Ours 1.891 0.253 0.290 6.109 0.172 0.924

本方法奖励接近 GA 但泛化指标全面最优,且保持源图一致性。GA 虽奖励最高但 reward hacking 严重(验证指标差)。

风格迁移任务

方法 ‖ΔG‖_F↓ CLIP-I_sty↑ DINO_sty↑ CLIP-I_src↑
Gradient Ascent 4.874 0.527 0.195 0.837
Inv+DPS 6.844 0.540 0.169 0.686
Inv+FreeDoM 5.462 0.563 0.225 0.621
Ours 5.019 0.578 0.247 0.717

验证指标(CLIP-I_sty、DINO_sty)全面最优,同时结构保持远优于 guided sampling baselines。

关键发现

  • 梯度上升(GA)在目标奖励上最强但普遍 reward hack——验证指标下降,说明只过拟合了奖励函数而未实质提升
  • Guided sampling(DPS/FreeDoM/TFG)在编辑场景下普遍破坏源图结构,LPIPS 和 CLIP-I_src 大幅恶化
  • 本方法通过全轨迹优化避免了 reward hacking:目标奖励接近最优,泛化指标全面领先
  • 控制量范数正则化是关键:限制了轨迹偏离程度,等价于隐式的源图保持约束
  • 反事实生成任务中,因为使用鲁棒分类器,GA 表现反而不错——说明奖励函数性质影响各方法的相对表现
  • 方法同时适用于扩散模型和 Flow Matching 模型,无需修改

亮点与洞察

  • 理论严谨:从最优控制理论推导出完整的编辑框架,PMP 提供了必要最优性条件
  • 统一框架:同时处理扩散和 Flow Matching 模型,统一为 SDE 控制问题
  • 无需 guidance scale 搜索:所有步的引导强度由单一权重 \(w\) 控制,有理论依据
  • 避免 reward hacking:控制量范数正则化天然防止过度编辑
  • 适用于抽象奖励:不限于文本条件,可用于人类偏好、风格等难以用语言表达的概念
  • 与 Adjoint Matching 的比较:后者需微调模型(改变整个分布),本方法仅优化单条轨迹(推理时编辑)

局限性 / 可改进方向

  • 使用的基础模型(SD 1.5 / SD 3)相对老旧,未在 FLUX 等最新模型上验证
  • 迭代优化过程需要多次前向+反向传播,计算开销较大(\(N\) 次迭代 × 轨迹长度)
  • 伴随方程中 Jacobian-vector product 的计算假设 \(b\) 可微且 Jacobian 可控,对某些模型可能不成立
  • 确定性反演的质量直接影响编辑质量——对 CFG 蒸馏模型可能需要额外处理
  • 未与更复杂的条件编辑方法(如 instructpix2pix、FLUX Kontext)对比
  • 仅使用300张图评估,规模偏小

相关工作与启发

  • DPS / FreeDoM / TFG:同为 training-free guidance 方法,但都基于单步引导或一步近似,无法有效处理复杂非线性奖励
  • Adjoint Matching:同使用 PMP 和伴随状态,但用于模型微调(SOC 问题),本文用于推理时单张图编辑
  • FlowEdit:无优化的 Flow 编辑方法,直接操纵文本条件流
  • RFIN / Rout et al.:OC 视角用于风格个性化和 Doob h-变换,但未用于 reward-guided editing
  • 启发:最优控制理论为生成模型的推理时干预提供了优雅且有理论保证的框架,可推广到 video editing 或 3D generation 的 reward-guided 控制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 将 reward-guided editing 重新建模为 OC 问题非常优雅,PMP 推导严谨
  • 实验充分度: ⭐⭐⭐ — 四个任务覆盖面广,但基础模型较老、评估规模小、无用户研究
  • 写作质量: ⭐⭐⭐⭐⭐ — 理论推导清晰,motivation 层层递进
  • 价值: ⭐⭐⭐⭐ — 为 reward-guided editing 提供了全新理论框架,但实际影响力取决于在现代大模型上的验证