Tiled Diffusion¶
会议: CVPR 2025
arXiv: 2412.15185
代码: 项目主页
领域: 图像生成
关键词: 图像拼贴, 扩散模型, 无缝纹理, 全景合成, 潜空间约束
一句话总结¶
提出 Tiled Diffusion,通过在扩散模型的潜空间中引入拼贴约束和相似性约束,首次支持从自拼贴到复杂多对多连接的多种拼贴场景,实现无缝且连贯的可拼贴图像生成。
研究背景与动机¶
图像拼贴——将不同图像无缝连接以创建连贯视觉场景——在纹理创建、游戏资产开发和数字艺术中至关重要。传统手工构建拼贴耗时且缺乏灵活性。现有自动化方法(如 STI 使用修复模型、AT 使用循环填充)主要局限于简单的自拼贴场景或纹理合成。
核心限制在于:(1) STI 独立生成每张图像后再修复连接处,无法在生成过程中共享拼贴信息;(2) AT 通过修改网络填充方式实现循环拼贴,但仅支持自拼贴;(3) 没有方法支持复杂的多对多拼贴(多张图像的多个边可互相连接)。
Tiled Diffusion 直接在潜空间表示上操作,在生成过程中同时创建所有拼贴图像,自然共享必要的拼贴信息。
方法详解¶
整体框架¶
将拼贴问题形式化定义:图像集 \(\mathcal{I} = \{I_1, ..., I_N\}\),每张图像有四条边(右、左、上、下)。约束集合 \(\mathcal{C} = \{C_1, ..., C_M\}\),每个约束 \(C_j = \{A_j, B_j\}\) 定义两组边之间的拼贴关系。在扩散过程的每一步应用拼贴约束和相似性约束,确保全局一致性和局部无缝连接。
关键设计一:潜空间拼贴约束(Tiling Constraint)¶
功能:确保拼贴图像之间的全局结构一致性
核心思路:在每个扩散步骤,从约束集合 \(B_j\) 中选取一个潜空间表示的部分区域,复制到 \(A_j\) 的潜空间中作为填充(padding),反之亦然。填充后的潜空间在扩散步骤中一起处理,最终解码后裁剪回原始尺寸。上下文窗口大小 \(w\)(\(0 \leq w \leq H_{\text{latent}}/2\))控制过渡平滑度:\(w\) 越大过渡越平滑但变化越少。
设计动机:扩散模型潜空间中相邻区域互相影响。通过复制拼贴边缘的上下文到邻接图像潜空间中,在生成过程中自然保证了风格和内容的一致性——无需后处理。
关键设计二:相似性约束(Similarity Constraint)¶
功能:在多对多拼贴场景中消除伪影
核心思路:当约束集合中有多个边(\(|A_j| > 1\) 或 \(|B_j| > 1\)),需要确保这些边附近的内容彼此相似。将同一约束集合中所有边的潜空间表示在边缘附近的小窗口(宽度 5 像素)内复制为相同值。
设计动机:拼贴约束仅保证全局结构一致,但在多对多场景中,同一组边的任意两个边都可能相邻,因此边缘附近的局部内容必须高度相似。关键区别是拼贴约束影响裁剪区域(间接),相似性约束直接影响保留区域(直接)。
关键设计三:循环轮转上下文选择¶
功能:平衡多个约束对生成的影响
核心思路:当约束涉及多个边时,在每个扩散步骤循环选择(round-robin)不同的边提供上下文。不同朝向的约束通过旋转潜空间处理。这确保每条边在整个扩散过程中都暴露给所有潜在匹配。
设计动机:在一定步数内均匀循环所有可能的拼贴组合,避免某些连接被忽略。
损失函数¶
无额外训练损失——方法作为推理时约束应用于标准扩散采样过程。支持 text-to-image 和 image-to-image 两种模式,后者通过对输入图像编码加噪后在扩散过程中应用相同约束。
实验关键数据¶
主实验:拼贴质量对比(1000 个 LAION 提示)¶
| 方法 | 场景 | FID↓ | TS↓ | CLIP-Score↑ | LPIPS↓ |
|---|---|---|---|---|---|
| AT | 自拼贴 | 49.2 | 0.03 | 0.29 | 0.79 |
| STI | 自拼贴 | 59.2 | 0.03 | 0.31 | 0.77 |
| Tiled Diffusion | 自拼贴 | 47.9 | 0.03 | 0.30 | - |
| STI | 一对一 | 77.1 | 0.14 | 0.23 | 0.77 |
| Tiled Diffusion | 一对一 | - | 0.03 | 0.30 | - |
| Tiled Diffusion | 多对多 | - | 0.03 | 0.29 | - |
消融实验¶
| 配置 | TS↓ | CLIP-Score↑ |
|---|---|---|
| 完整方法 | 0.03 | 0.30 |
| 无拼贴约束(TC) | 0.29 | 0.31 |
| 无相似性约束(SC,自拼贴) | 0.03 | 0.30 |
| 无相似性约束(SC,多对多) | 0.12 | 0.28 |
关键发现¶
- 拼贴约束是核心组件——去除后 TS 从 0.03 飙升至 0.29(与标准生成无异)
- 相似性约束在多对多场景中至关重要:无 SC 时 TS 从 0.03 降至 0.12
- STI 在一对一场景中 TS = 0.14,远高于 Tiled Diffusion 的 0.03,因为 STI 独立生成后修复连接
- 方法随拼贴复杂度(\(n = |A_j| = |B_j|\) 从 1 到 5)扩展良好,TS 保持基本恒定
亮点与洞察¶
- 灵活的形式化定义:通过边集合的约束定义,统一涵盖自拼贴、一对一和多对多场景
- 推理时约束:无需训练或微调,直接在标准扩散模型推理过程中应用,兼容 SD 1.5/2.0/XL/3.0 和 ControlNet
- 潜空间上下文共享:同时生成所有拼贴图像并共享上下文,本质上优于先生成后修复的方案
局限与展望¶
- 拼贴约束的上下文窗口 \(w\) 需要手动调节平衡平滑度和变化度
- 大规模多图像拼贴可能受内存限制
- 360° 合成的水平拼贴质量优秀但垂直方向未处理
- 未来可探索 3D 纹理的拼贴扩展
相关工作与启发¶
- STI (Seamless Tile Inpainting):通过交换图像象限并修复来创建自拼贴,但缺乏生成时信息共享
- AT (Asymmetric Tiling):修改 SD 的填充为循环填充,但仅支持自拼贴且无旋转
- Wang Tiles:经典拼贴理论,Tiled Diffusion 可视为其深度学习时代的现代扩展
评分¶
⭐⭐⭐⭐ — 问题定义清晰,方法简洁优雅,多对多拼贴的独特能力开辟了新的应用空间。作为推理时约束无需训练,实用性强。在纹理合成和 360° 全景生成中的应用令人印象深刻。
相关论文¶
- [CVPR 2025] Color Alignment in Diffusion
- [CVPR 2025] Decentralized Diffusion Models
- [CVPR 2025] Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models
- [CVPR 2025] LEDiff: Latent Exposure Diffusion for HDR Generation
- [CVPR 2025] Erasing Undesirable Influence in Diffusion Models (EraseDiff)