Towards Source-Aware Object Swapping with Initial Noise Perturbation¶
会议: CVPR 2026
arXiv: 2602.23697
代码: 无
领域: 人体理解
关键词: 物体替换, 扩散模型, 初始噪声扰动, 自监督, 跨物体对齐
一句话总结¶
提出 SourceSwap,通过频率分离的初始噪声扰动从单张图像生成高质量伪配对数据,并采用源感知双 U-Net 架构学习跨物体对齐,实现零样本、无逐物体微调的高保真物体替换。
研究背景与动机¶
物体替换旨在将场景中的源物体替换为参考物体,需满足三准则:物体保真度、场景保真度、物体-场景和谐度。
现有方法问题:(1) 测试时微调方法(DreamEdit, PhotoSwap)需要逐物体训练,推理慢;(2) 学习式修复方法(AnyDoor, MimicBrush)依赖视频/多视角伪配对数据,存在模糊和同一物体偏差问题;(3) 所有方法在训练时 mask 掉源物体,模型只能从背景推断物体状态,无法学习跨物体对齐。
核心洞察:保留完整源图像让模型直接学习两个不同物体之间的对齐关系。
方法详解¶
整体框架¶
两步:(1) 初始噪声扰动生成伪配对 → (2) 源感知双 U-Net 训练。
关键设计¶
1. 频率分离初始噪声扰动¶
对源图像 \(I_s\) 做 DDIM 反演得到 \(z_T\),通过 FFT 分离为低频 \(z_T^L\) 和高频 \(z_T^H\)(截止频率 0.3)。在源物体 mask 内,对高频分量进行空间索引随机排列:
排列而非重采样高斯噪声——保持边际分布和能量,有利于无缝融合。低频固定保持形态一致,高频排列改变外观(颜色/纹理/材质),mask 外保持原始噪声。
2. 源感知双 U-Net¶
上支路(参考 U-Net)提取参考物体密集特征,不注入噪声获取更清晰细节。下支路(去噪 U-Net)条件输入包含完整源图像(不 mask)+ bbox mask + 扰动源图像。每个 cross-attention 块拼接两个 U-Net 的 Key/Value。
关键:源图像作为输入,扰动图像作为条件(目标是生成接近真实图像的结果)。
3. 迭代精化¶
前一次输出作为下一次源图像输入:\(I_t^{(k)} = \mathcal{D}(I_r, I_s^{(k)})\)。实践中 k=2 轮即可显著提升颜色/纹理细节。
训练策略¶
基于 SD v1.5 和 SD Inpainting v1.5,40K 单图样本,训练 10K 迭代,单卡 A100 约 8 小时。参考 U-Net timestep 固定为 0,VAE 和文本编码器冻结。
实验关键数据¶
主实验¶
| 评估维度 | 指标 | SourceSwap 表现 |
|---|---|---|
| 物体保真 | DreamSim ↓ | Pareto 前沿最优 |
| 场景保真 | LPIPS ↓ | Pareto 前沿最优 |
| 和谐度 | MLLM偏好率 | 对所有基线 >62% |
推理效率¶
| 方法 | 推理时间/样本 |
|---|---|
| PhotoSwap | 128.85s + 751.97s 预训练 |
| DiptychPrompt | 124.63s |
| AnyDoor | 11.01s |
| SourceSwap (2轮) | 4.41s |
消融实验¶
| 配置 | 效果 |
|---|---|
| 无源感知 | 物体空间关系错误(背包悬浮) |
| 仅数据增强无扰动 | 模型坍塌 |
| 排列所有频率分量 | 结构扭曲 |
| 仅排列低频 | 变化不足 |
| 重采样高斯噪声 | 粘贴感,视角冲突 |
关键发现¶
- 40K 单图样本即可达强性能,比 AnyDoor (410K) 和 MimicBrush (10M) 少 1-2 个数量级
- 学习式方法整体优于无训练方法,任务特定数据构造是关键
亮点与洞察¶
- 频率分离噪声扰动极简但有效——只需 FFT + 局部排列
- 移除源 mask 是反直觉的关键设计——完整源图像信息反而帮助跨物体对齐
- 训练数据量比同类少 2-3 个数量级
局限与展望¶
- 基于 SD v1.5,升级更强基础模型可进一步提升
- 极端形态差异的物体替换效果可能有限
- 扰动多样性受限于频率分离操作的表达能力
相关工作与启发¶
- 初始噪声空间操控的思路可迁移到布局控制、风格迁移等任务
- 相比 AnyDoor/MimicBrush:避免了视频配对数据的质量问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 频率分离噪声扰动+源感知设计,思路新颖
- 实验充分度: ⭐⭐⭐⭐ 对比全面,消融充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰
- 价值: ⭐⭐⭐⭐ 实用的零样本物体替换方案
相关论文¶
- [AAAI 2026] Transferable Backdoor Attacks for Code Models via Sharpness-Aware Adversarial Perturbation
- [CVPR 2026] COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation
- [ICCV 2025] SAMO: A Lightweight Sharpness-Aware Approach for Multi-Task Optimization with Joint Global-Local Perturbation
- [CVPR 2025] Zero-Shot Head Swapping in Real-World Scenarios
- [ICCV 2025] Controllable and Expressive One-Shot Video Head Swapping