Towards Source-Aware Object Swapping with Initial Noise Perturbation¶

会议: CVPR 2026
arXiv: 2602.23697
代码: 无
领域: 人体理解
关键词: 物体替换, 扩散模型, 初始噪声扰动, 自监督, 跨物体对齐

一句话总结¶

提出 SourceSwap，通过频率分离的初始噪声扰动从单张图像生成高质量伪配对数据，并采用源感知双 U-Net 架构学习跨物体对齐，实现零样本、无逐物体微调的高保真物体替换。

研究背景与动机¶

物体替换旨在将场景中的源物体替换为参考物体，需满足三准则：物体保真度、场景保真度、物体-场景和谐度。

现有方法问题：(1) 测试时微调方法（DreamEdit, PhotoSwap）需要逐物体训练，推理慢；(2) 学习式修复方法（AnyDoor, MimicBrush）依赖视频/多视角伪配对数据，存在模糊和同一物体偏差问题；(3) 所有方法在训练时 mask 掉源物体，模型只能从背景推断物体状态，无法学习跨物体对齐。

核心洞察：保留完整源图像让模型直接学习两个不同物体之间的对齐关系。

方法详解¶

整体框架¶

两步：(1) 初始噪声扰动生成伪配对 → (2) 源感知双 U-Net 训练。

关键设计¶

1. 频率分离初始噪声扰动¶

对源图像 \(I_s\) 做 DDIM 反演得到 \(z_T\)，通过 FFT 分离为低频 \(z_T^L\) 和高频 \(z_T^H\)（截止频率 0.3）。在源物体 mask 内，对高频分量进行空间索引随机排列：

\[\hat{z}_T^H[c,k] = \tilde{z}_T^H[c,\pi(k)]\]

排列而非重采样高斯噪声——保持边际分布和能量，有利于无缝融合。低频固定保持形态一致，高频排列改变外观（颜色/纹理/材质），mask 外保持原始噪声。

2. 源感知双 U-Net¶

上支路（参考 U-Net）提取参考物体密集特征，不注入噪声获取更清晰细节。下支路（去噪 U-Net）条件输入包含完整源图像（不 mask）+ bbox mask + 扰动源图像。每个 cross-attention 块拼接两个 U-Net 的 Key/Value。

关键：源图像作为输入，扰动图像作为条件（目标是生成接近真实图像的结果）。

3. 迭代精化¶

前一次输出作为下一次源图像输入：\(I_t^{(k)} = \mathcal{D}(I_r, I_s^{(k)})\)。实践中 k=2 轮即可显著提升颜色/纹理细节。

训练策略¶

基于 SD v1.5 和 SD Inpainting v1.5，40K 单图样本，训练 10K 迭代，单卡 A100 约 8 小时。参考 U-Net timestep 固定为 0，VAE 和文本编码器冻结。

实验关键数据¶

主实验¶

评估维度	指标	SourceSwap 表现
物体保真	DreamSim ↓	Pareto 前沿最优
场景保真	LPIPS ↓	Pareto 前沿最优
和谐度	MLLM偏好率	对所有基线 >62%

推理效率¶

方法	推理时间/样本
PhotoSwap	128.85s + 751.97s 预训练
DiptychPrompt	124.63s
AnyDoor	11.01s
SourceSwap (2轮)	4.41s

消融实验¶

配置	效果
无源感知	物体空间关系错误（背包悬浮）
仅数据增强无扰动	模型坍塌
排列所有频率分量	结构扭曲
仅排列低频	变化不足
重采样高斯噪声	粘贴感，视角冲突

关键发现¶

40K 单图样本即可达强性能，比 AnyDoor (410K) 和 MimicBrush (10M) 少 1-2 个数量级
学习式方法整体优于无训练方法，任务特定数据构造是关键

亮点与洞察¶

频率分离噪声扰动极简但有效——只需 FFT + 局部排列
移除源 mask 是反直觉的关键设计——完整源图像信息反而帮助跨物体对齐
训练数据量比同类少 2-3 个数量级

局限与展望¶

基于 SD v1.5，升级更强基础模型可进一步提升
极端形态差异的物体替换效果可能有限
扰动多样性受限于频率分离操作的表达能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 频率分离噪声扰动+源感知设计，思路新颖
实验充分度: ⭐⭐⭐⭐ 对比全面，消融充分
写作质量: ⭐⭐⭐⭐ 动机清晰
价值: ⭐⭐⭐⭐ 实用的零样本物体替换方案