ICCV 2025 3D视觉 Score Distillation 3D场景编辑 2D图像编辑扩散模型 Classifier-Free Guidance NeRF 3DGS

Stable Score Distillation¶

会议: ICCV 2025
arXiv: 2507.09168
代码: https://github.com/Alex-Zhu1/SSD
领域: 3D视觉 / 文本引导编辑
关键词: Score Distillation, 3D场景编辑, 2D图像编辑, 扩散模型, Classifier-Free Guidance, NeRF, 3DGS

一句话总结¶

提出 Stable Score Distillation (SSD)，通过单分类器跨提示词引导和 null-text 分支的跨轨迹正则化，实现更稳定精准的文本引导 2D/3D 编辑，在保持源内容结构的同时提升编辑对齐度。

研究背景与动机¶

文本引导的图像/3D编辑依赖扩散模型的先验知识，但现有 score distillation 方法存在明显缺陷：

SDS 的局限：Score Distillation Sampling 在编辑任务中会引入全局优化干扰，导致非编辑区域模糊和伪影，因为它是面向整个 prompt 全局优化的。

DDS 的不足：Delta Denoising Score 通过引入源分支消除模型偏差，但缺乏对源内容结构的显式保护，导致非编辑区域也被修改（如编辑人物面部时衣服也被改变）。

CSD 的问题：Classifier Score Distillation 使用双分类器获取跨提示词编辑方向，但同样缺少源结构保持机制，导致结构变形和伪影。

编辑强度不足：DDS 类方法在风格编辑等场景中容易出现编辑力度不够，最终几乎未产生变化。

作者的两个核心观察：

跨提示词（Cross-prompt）：只需单个分类器即可提供从源提示词到目标提示词的编辑方向，无需双分类器的复杂结构。
跨轨迹（Cross-trajectory）：通过将编辑方向与源内容结构对齐，可确保优化过程稳定，避免结构突变。

方法详解¶

整体框架¶

SSD 的设计围绕三个核心组件展开，最终损失为三项之和：

\[L_{\text{final}} = L_{\text{ssd}} + L_{\text{align}} + L_{\text{ID}}\]

其中 \(L_{\text{ssd}}\) 是核心蒸馏损失，\(L_{\text{align}}\) 是提示词增强项，\(L_{\text{ID}}\) 是源 latent 正则化项。

关键设计一：Stable Score Distillation 核心公式¶

不同于 DDS 使用辅助源分支，SSD 利用 CFG 公式构建跨提示词编辑方向，并引入 null-text 分支进行正则化：

\[L_{\text{ssd}} = \epsilon_\phi(z_t, \hat{y}) + s(\epsilon_\phi(z_t, y) - \epsilon_\phi(z_t, \hat{y})) - \epsilon_\phi(\hat{z}_t, \varnothing)\]

该公式可分解为两项：

\[L_{\text{ssd}} = \underbrace{w_p(\epsilon_\phi(z_t, y) - \epsilon_\phi(z_t, \hat{y}))}_{\text{cross-prompt}} + \underbrace{w_t(\epsilon_\phi(z_t, \hat{y}) - \epsilon_\phi(\hat{z}_t, \varnothing))}_{\text{cross-trajectory}}\]

Cross-prompt 项：用单一分类器衡量当前 latent 在目标提示词 \(y\) 与源提示词 \(\hat{y}\) 下的预测差异，提供平滑的纹理过渡方向。
Cross-trajectory 项：衡量当前 latent 在源提示词下的预测与源 latent 在 null-text 下的预测之间的距离，约束结构不发生突变，是 SSD 与 CSD 的关键区别。当 \(w_t=0\) 时退化为 CSD，结构无法保持。

关键设计二：提示词增强分支¶

DDS 系列方法在风格编辑时编辑力度不足，SSD 添加目标提示词增强项：

\[L_{\text{align}} = w_e(\epsilon_\phi(z_t, y) - \epsilon_\phi(z_t, \varnothing))\]

该项为标准的 CFG 分类器方向，直接增强目标提示词的引导力度。\(w_e\) 控制增强强度，过大会导致过饱和，需要与 cross-trajectory 同步调节。

关键设计三：源 Latent 正则化¶

在 3DGS 编辑中，latent 空间损失可能导致局部梯度爆炸（出现亮斑），因此引入 ID 正则化：

\[L_{\text{ID}} = w(t) \cdot (x_t - \hat{x}_t)\]

其中 \(w(t)\) 为随迭代递减的权重。与 PDS 使用无噪 \(\hat{x}_0\) 不同，SSD 使用带噪 \(\hat{x}_t\) 避免梯度爆炸。

与 InstructPix2Pix 的联系¶

作者发现 SSD 的设计与 IP2P 的单步反向采样公式有结构性对应：IP2P 公式中的中间项对应 cross-trajectory 正则化，最后一项对应 cross-prompt 项。这意味着在 IP2P 模型上应用 DDS 损失只需编辑分支，无需源分支。

实验关键数据¶

主实验一：3D 场景编辑¶

方法	CLIP Sim ↑	Sim Dire ↑	User Study ↑
IN2N	0.1676	0.0707	14.54%
DDS	0.1780	0.0401	5.45%
GS-Editor	0.1758	0.0429	14.54%
DGE	0.1758	0.0563	23.63%
SSD (Ours)	0.1846	0.0773	41.81%

在 IN2N、LLFF、Mip-NeRF360 等数据集上测试，6 个场景 10 个提示词。
用户研究 55 人参与，SSD 获得 41.81% 最高支持率，远超其他方法。
CLIP Sim 和 Sim Dire 均取得最优。

主实验二：2D 图像编辑（PIE-Bench，700 张图，9 种编辑类型）¶

方法	Distance↓	LPIPS↓	MSE↓	CLIP↑
DDIM + P2P	69.43	208.80	219.88	25.01
DDS	14.74	50.58	45.09	25.86
DDS + CDS	7.15	33.14	25.29	24.96
Ours	28.13	82.43	86.64	26.94
Ours + CDS	6.90	32.15	24.21	25.12

SSD 在 CLIP Similarity 上取得最优（26.94），证明提示词增强分支的有效性。
结合 CDS 后，在结构保持指标上全面最优（Distance 6.90, LPIPS 32.15, MSE 24.21）。
纯 SSD 模式以较高的结构变化换取显著更好的编辑效果，尤其在风格编辑上。

消融实验关键发现¶

组件	效果
Cross-trajectory (\(w_t=0\))	退化为 CSD，结构无法保持，出现饱和和伪影
Prompt-enhancement (\(w_e\))	对风格编辑至关重要，去掉后编辑力度显著不足
ID 正则化	抑制 3DGS 中局部梯度爆炸（亮斑），但权重过大会限制编辑属性
收敛速度	NeRF 约 3000 次迭代，3DGS 约 1500 次迭代（结合非递增 timestep 采样）

亮点与洞察¶

简洁的框架设计：相比 DDS 的双分支和 CSD 的双分类器，SSD 只需单分类器 + null-text 分支，结构更简洁，却同时解决了稳定性和编辑力度两个问题。
Cross-trajectory 正则化的巧妙性：通过对比同一 latent 在源提示词下的预测与源 latent 在无条件下的预测，隐式约束结构变化，而非显式添加像素级重建损失。
与 IP2P 的理论联系：揭示了 SSD 与 InstructPix2Pix 之间的结构对应关系，为理解 IP2P 的工作机制提供了新视角。
即插即用兼容性：可直接集成到现有 DDS-based 编辑流水线（NeRF 编辑、2D 编辑），无需 LoRA 或微调，与 CDS 等方法互补组合效果更佳。
用户研究压倒性优势：3D 编辑的用户研究中获得 41.81% 投票，几乎是第二名 DGE（23.63%）的两倍。

局限性¶

优化速度：作为基于优化的方法，编辑过程需要数千次迭代，相比一步法或少步法（如 TurboEdit、SD-Turbo）仍然较慢。
结构保持与编辑力度的权衡：PIE-Bench 上纯 SSD 的结构距离指标（28.13）高于 DDS（14.74），表明强编辑必然伴随更大的结构变化。
ID 正则化的权衡：权重过大会抑制编辑属性（如角色胸前的蜘蛛标志被影响），需要手动调参。
超参数较多：\(w_p\)、\(w_t\)、\(w_e\) 以及 ID 正则化权重 \(w(t)\) 需要根据具体场景调节。

评分¶

新颖性: ⭐⭐⭐⭐ — 单分类器 + null-text 分支的设计简洁高效，cross-trajectory 正则化是有意义的新贡献
实验充分度: ⭐⭐⭐⭐ — 覆盖 3D（NeRF/3DGS）和 2D（PIE-Bench）编辑，有用户研究和消融实验，但缺少定量消融表格
写作质量: ⭐⭐⭐ — 公式推导清晰但 LaTeX 符号使用偶有不一致，部分语法有小问题
价值: ⭐⭐⭐⭐ — 对 score distillation 编辑领域有实际推进，框架兼容性好，即插即用