跳转至

Towards Source-Aware Object Swapping with Initial Noise Perturbation

会议: CVPR 2026
arXiv: 2602.23697
代码: 无
领域: 人体理解
关键词: 物体替换, 扩散模型, 初始噪声扰动, 自监督, 跨物体对齐

一句话总结

提出 SourceSwap,通过频率分离的初始噪声扰动从单张图像生成高质量伪配对数据,并采用源感知双 U-Net 架构学习跨物体对齐,实现零样本、无逐物体微调的高保真物体替换。

研究背景与动机

物体替换旨在将场景中的源物体替换为参考物体,需满足三准则:物体保真度、场景保真度、物体-场景和谐度。

现有方法问题:(1) 测试时微调方法(DreamEdit, PhotoSwap)需要逐物体训练,推理慢;(2) 学习式修复方法(AnyDoor, MimicBrush)依赖视频/多视角伪配对数据,存在模糊和同一物体偏差问题;(3) 所有方法在训练时 mask 掉源物体,模型只能从背景推断物体状态,无法学习跨物体对齐。

核心洞察:保留完整源图像让模型直接学习两个不同物体之间的对齐关系。

方法详解

整体框架

两步:(1) 初始噪声扰动生成伪配对 → (2) 源感知双 U-Net 训练。

关键设计

1. 频率分离初始噪声扰动

对源图像 \(I_s\) 做 DDIM 反演得到 \(z_T\),通过 FFT 分离为低频 \(z_T^L\) 和高频 \(z_T^H\)(截止频率 0.3)。在源物体 mask 内,对高频分量进行空间索引随机排列:

\[\hat{z}_T^H[c,k] = \tilde{z}_T^H[c,\pi(k)]\]

排列而非重采样高斯噪声——保持边际分布和能量,有利于无缝融合。低频固定保持形态一致,高频排列改变外观(颜色/纹理/材质),mask 外保持原始噪声。

2. 源感知双 U-Net

上支路(参考 U-Net)提取参考物体密集特征,不注入噪声获取更清晰细节。下支路(去噪 U-Net)条件输入包含完整源图像(不 mask)+ bbox mask + 扰动源图像。每个 cross-attention 块拼接两个 U-Net 的 Key/Value。

关键:源图像作为输入,扰动图像作为条件(目标是生成接近真实图像的结果)。

3. 迭代精化

前一次输出作为下一次源图像输入:\(I_t^{(k)} = \mathcal{D}(I_r, I_s^{(k)})\)。实践中 k=2 轮即可显著提升颜色/纹理细节。

训练策略

基于 SD v1.5 和 SD Inpainting v1.5,40K 单图样本,训练 10K 迭代,单卡 A100 约 8 小时。参考 U-Net timestep 固定为 0,VAE 和文本编码器冻结。

实验关键数据

主实验

评估维度 指标 SourceSwap 表现
物体保真 DreamSim ↓ Pareto 前沿最优
场景保真 LPIPS ↓ Pareto 前沿最优
和谐度 MLLM偏好率 对所有基线 >62%

推理效率

方法 推理时间/样本
PhotoSwap 128.85s + 751.97s 预训练
DiptychPrompt 124.63s
AnyDoor 11.01s
SourceSwap (2轮) 4.41s

消融实验

配置 效果
无源感知 物体空间关系错误(背包悬浮)
仅数据增强无扰动 模型坍塌
排列所有频率分量 结构扭曲
仅排列低频 变化不足
重采样高斯噪声 粘贴感,视角冲突

关键发现

  • 40K 单图样本即可达强性能,比 AnyDoor (410K) 和 MimicBrush (10M) 少 1-2 个数量级
  • 学习式方法整体优于无训练方法,任务特定数据构造是关键

亮点与洞察

  1. 频率分离噪声扰动极简但有效——只需 FFT + 局部排列
  2. 移除源 mask 是反直觉的关键设计——完整源图像信息反而帮助跨物体对齐
  3. 训练数据量比同类少 2-3 个数量级

局限与展望

  1. 基于 SD v1.5,升级更强基础模型可进一步提升
  2. 极端形态差异的物体替换效果可能有限
  3. 扰动多样性受限于频率分离操作的表达能力

相关工作与启发

  • 初始噪声空间操控的思路可迁移到布局控制、风格迁移等任务
  • 相比 AnyDoor/MimicBrush:避免了视频配对数据的质量问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 频率分离噪声扰动+源感知设计,思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 对比全面,消融充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰
  • 价值: ⭐⭐⭐⭐ 实用的零样本物体替换方案

相关论文