Training-Free Reward-Guided Image Editing via Trajectory Optimal Control¶

会议: ICLR 2026
arXiv: 2509.25845
代码: 无
领域: 扩散模型 / 图像编辑
关键词: Optimal Control, Reward-Guided, Training-Free, Adjoint State, Pontryagin's Maximum Principle

一句话总结¶

将 reward-guided 图像编辑重新建模为轨迹最优控制问题，将扩散/Flow模型的反向过程视为可控轨迹，通过基于 Pontryagin 最大值原理（PMP）的伴随状态迭代优化整条轨迹，在无需训练的情况下实现有效的奖励引导编辑且不发生 reward hacking。

研究背景与动机¶

领域现状：Reward-guided 采样在 T2I 生成中已取得成功（DPS、FreeDoM、TFG），通过利用可微分奖励函数在推理时引导生成过程。但这些方法都设计用于采样，未专门针对编辑。
现有痛点：Reward-guided 编辑比生成更难——既要最大化奖励又要保持源图像核心身份。朴素方法（反演+引导采样）效果差：对复杂非线性奖励函数，基于中间噪声图像或单步近似的引导会降低结构忠实度。直接梯度上升虽方向正确但不考虑图像先验，产生对抗性样本。
核心矛盾：现有 guidance 方法在编辑场景中面临两难——引导过强则破坏结构，引导过弱则奖励提升不足。且它们缺乏对 guidance scale 选择的理论支撑，需要大量超参调整。
本文要解决什么？ 如何在不训练模型的情况下，利用任意可微分奖励函数引导编辑，同时保持与源图的结构一致性？
切入角度：最优控制理论——将问题从"单步引导"提升为"全轨迹优化"。
核心idea一句话：优化整条生成轨迹（而非单步引导中间状态）来同时最大化终端奖励和保持与源图的一致性。

方法详解¶

整体框架¶

给定源图像 $\bm{x}_1$，先通过确定性反演生成初始轨迹 $\{\bm{x}_t\}_{t=T}^{1}$。然后迭代优化这条轨迹：每次迭代包含三步——(1) 反向计算伴随状态 $p_t$；(2) 更新控制量 $u_t$；(3) 用更新后的控制量前向模拟新轨迹。最终取终点 $\bm{x}_1^{u^*}$ 作为编辑结果。

关键设计¶

统一 SDE 框架：将扩散模型和 Flow Matching 模型的采样过程统一为： $$d\bm{x}_t = b(\bm{x}_t, t) dt + \sigma_t d\mathbf{B}_t$$ 其中漂移项 $b$ 根据模型类型不同有不同表达式（Eq. 4-5），允许用单一理论框架同时处理两类模型。
最优控制问题建模：引入控制项 $u_t$ 到漂移中，求解： $$\min_{u \in \mathcal{U}} \int_T^1 \frac{1}{2} \|u(\bm{x}_t^u, t)\|^2 dt - r(\bm{x}_1^u)$$ $$\text{s.t.} \quad d\bm{x}_t^u = (b(\bm{x}_t^u, t) + u(\bm{x}_t^u, t)) dt + \sigma_t d\mathbf{B}_t, \quad \bm{x}_T^u = \bm{x}_T$$ 目标：终端奖励 $r(\bm{x}_1^u)$ 最大化 + 控制量范数最小化（正则化，确保轨迹不偏离流形太远）。
基于 PMP 的迭代求解：PMP 给出最优轨迹的必要条件（Eq. 8-10），涉及三个耦合微分方程——状态方程（前向）、伴随方程（反向）、最优控制条件（$u_t^* = -p_t^*$）。由于联合求解不可行，采用类坐标下降的迭代方法：
Step 1：固定当前轨迹 $\bm{x}_t$，反向求解伴随方程得到 $p_t$（终端条件 $p_1^* = -\nabla_{\bm{x}_1} r(\bm{x}_1^*)$）
Step 2：按 $u_t = u_t - \lambda(u_t + p_t)$ 更新控制量
Step 3：用更新后的 $u_t$ 前向模拟新轨迹 $\bm{x}_t$

伴随方程中的 Jacobian-vector product $[\nabla_{\bm{x}_t} b(\bm{x}_t^*, t)]^\top p_t^*$ 通过自动微分高效计算。

反演策略：扩散模型用 DDIM 反演，Flow Matching 用时间反转 ODE，均为确定性反演（$\sigma_t = 0$），确保初始轨迹忠实再现源图像。

损失函数 / 训练策略¶

无训练方法：纯推理时优化
核心损失为最优控制的代价泛函：终端奖励 + 控制量范数正则化
允许用权重 $w$ 缩放奖励函数 $r(\cdot)$，统一控制 guidance scale
使用 StableDiffusion 1.5（扩散）和 StableDiffusion 3（Flow Matching）作为基础模型
各任务使用不同奖励函数：ImageReward（人类偏好）、Gram 矩阵差异（风格迁移）、分类器 logit（反事实）、CLIPScore（文本引导编辑）

实验关键数据¶

主实验（Human Preference 任务，SD 1.5）¶

方法	ImageReward↑	HPSv2↑	CLIPScore↑	Aesthetic↑	LPIPS↓	CLIP-I_src↑
None	0.154	0.239	0.289	6.052	0.000	1.000
Gradient Ascent	1.909	0.225	0.288	5.578	0.147	0.920
Inv+DPS	1.599	0.232	0.265	5.828	0.288	0.851
Inv+TFG	1.705	0.236	0.273	5.633	0.293	0.840
Ours	1.891	0.253	0.290	6.109	0.172	0.924

本方法奖励接近 GA 但泛化指标全面最优，且保持源图一致性。GA 虽奖励最高但 reward hacking 严重（验证指标差）。

风格迁移任务¶

方法	‖ΔG‖_F↓	CLIP-I_sty↑	DINO_sty↑	CLIP-I_src↑
Gradient Ascent	4.874	0.527	0.195	0.837
Inv+DPS	6.844	0.540	0.169	0.686
Inv+FreeDoM	5.462	0.563	0.225	0.621
Ours	5.019	0.578	0.247	0.717

验证指标（CLIP-I_sty、DINO_sty）全面最优，同时结构保持远优于 guided sampling baselines。

关键发现¶

梯度上升（GA）在目标奖励上最强但普遍 reward hack——验证指标下降，说明只过拟合了奖励函数而未实质提升
Guided sampling（DPS/FreeDoM/TFG）在编辑场景下普遍破坏源图结构，LPIPS 和 CLIP-I_src 大幅恶化
本方法通过全轨迹优化避免了 reward hacking：目标奖励接近最优，泛化指标全面领先
控制量范数正则化是关键：限制了轨迹偏离程度，等价于隐式的源图保持约束
反事实生成任务中，因为使用鲁棒分类器，GA 表现反而不错——说明奖励函数性质影响各方法的相对表现
方法同时适用于扩散模型和 Flow Matching 模型，无需修改

亮点与洞察¶

理论严谨：从最优控制理论推导出完整的编辑框架，PMP 提供了必要最优性条件
统一框架：同时处理扩散和 Flow Matching 模型，统一为 SDE 控制问题
无需 guidance scale 搜索：所有步的引导强度由单一权重 $w$ 控制，有理论依据
避免 reward hacking：控制量范数正则化天然防止过度编辑
适用于抽象奖励：不限于文本条件，可用于人类偏好、风格等难以用语言表达的概念
与 Adjoint Matching 的比较：后者需微调模型（改变整个分布），本方法仅优化单条轨迹（推理时编辑）

局限性 / 可改进方向¶

使用的基础模型（SD 1.5 / SD 3）相对老旧，未在 FLUX 等最新模型上验证
迭代优化过程需要多次前向+反向传播，计算开销较大（$N$ 次迭代 × 轨迹长度）
伴随方程中 Jacobian-vector product 的计算假设 $b$ 可微且 Jacobian 可控，对某些模型可能不成立
确定性反演的质量直接影响编辑质量——对 CFG 蒸馏模型可能需要额外处理
未与更复杂的条件编辑方法（如 instructpix2pix、FLUX Kontext）对比
仅使用300张图评估，规模偏小

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 将 reward-guided editing 重新建模为 OC 问题非常优雅，PMP 推导严谨
实验充分度: ⭐⭐⭐ — 四个任务覆盖面广，但基础模型较老、评估规模小、无用户研究
写作质量: ⭐⭐⭐⭐⭐ — 理论推导清晰，motivation 层层递进
价值: ⭐⭐⭐⭐ — 为 reward-guided editing 提供了全新理论框架，但实际影响力取决于在现代大模型上的验证