Tiled Diffusion¶

会议: CVPR 2025
arXiv: 2412.15185
代码: 项目主页
领域: 图像生成
关键词: 图像拼贴, 扩散模型, 无缝纹理, 全景合成, 潜空间约束

一句话总结¶

提出 Tiled Diffusion，通过在扩散模型的潜空间中引入拼贴约束和相似性约束，首次支持从自拼贴到复杂多对多连接的多种拼贴场景，实现无缝且连贯的可拼贴图像生成。

研究背景与动机¶

图像拼贴——将不同图像无缝连接以创建连贯视觉场景——在纹理创建、游戏资产开发和数字艺术中至关重要。传统手工构建拼贴耗时且缺乏灵活性。现有自动化方法（如 STI 使用修复模型、AT 使用循环填充）主要局限于简单的自拼贴场景或纹理合成。

核心限制在于：(1) STI 独立生成每张图像后再修复连接处，无法在生成过程中共享拼贴信息；(2) AT 通过修改网络填充方式实现循环拼贴，但仅支持自拼贴；(3) 没有方法支持复杂的多对多拼贴（多张图像的多个边可互相连接）。

Tiled Diffusion 直接在潜空间表示上操作，在生成过程中同时创建所有拼贴图像，自然共享必要的拼贴信息。

方法详解¶

整体框架¶

将拼贴问题形式化定义：图像集 \(\mathcal{I} = \{I_1, ..., I_N\}\)，每张图像有四条边（右、左、上、下）。约束集合 \(\mathcal{C} = \{C_1, ..., C_M\}\)，每个约束 \(C_j = \{A_j, B_j\}\) 定义两组边之间的拼贴关系。在扩散过程的每一步应用拼贴约束和相似性约束，确保全局一致性和局部无缝连接。

关键设计一：潜空间拼贴约束（Tiling Constraint）¶

功能：确保拼贴图像之间的全局结构一致性

核心思路：在每个扩散步骤，从约束集合 \(B_j\) 中选取一个潜空间表示的部分区域，复制到 \(A_j\) 的潜空间中作为填充（padding），反之亦然。填充后的潜空间在扩散步骤中一起处理，最终解码后裁剪回原始尺寸。上下文窗口大小 \(w\)（\(0 \leq w \leq H_{\text{latent}}/2\)）控制过渡平滑度：\(w\) 越大过渡越平滑但变化越少。

设计动机：扩散模型潜空间中相邻区域互相影响。通过复制拼贴边缘的上下文到邻接图像潜空间中，在生成过程中自然保证了风格和内容的一致性——无需后处理。

关键设计二：相似性约束（Similarity Constraint）¶

功能：在多对多拼贴场景中消除伪影

核心思路：当约束集合中有多个边（\(|A_j| > 1\) 或 \(|B_j| > 1\)），需要确保这些边附近的内容彼此相似。将同一约束集合中所有边的潜空间表示在边缘附近的小窗口（宽度 5 像素）内复制为相同值。

设计动机：拼贴约束仅保证全局结构一致，但在多对多场景中，同一组边的任意两个边都可能相邻，因此边缘附近的局部内容必须高度相似。关键区别是拼贴约束影响裁剪区域（间接），相似性约束直接影响保留区域（直接）。

关键设计三：循环轮转上下文选择¶

功能：平衡多个约束对生成的影响

核心思路：当约束涉及多个边时，在每个扩散步骤循环选择（round-robin）不同的边提供上下文。不同朝向的约束通过旋转潜空间处理。这确保每条边在整个扩散过程中都暴露给所有潜在匹配。

设计动机：在一定步数内均匀循环所有可能的拼贴组合，避免某些连接被忽略。

损失函数¶

无额外训练损失——方法作为推理时约束应用于标准扩散采样过程。支持 text-to-image 和 image-to-image 两种模式，后者通过对输入图像编码加噪后在扩散过程中应用相同约束。

实验关键数据¶

主实验：拼贴质量对比（1000 个 LAION 提示）¶

方法	场景	FID↓	TS↓	CLIP-Score↑	LPIPS↓
AT	自拼贴	49.2	0.03	0.29	0.79
STI	自拼贴	59.2	0.03	0.31	0.77
Tiled Diffusion	自拼贴	47.9	0.03	0.30	-
STI	一对一	77.1	0.14	0.23	0.77
Tiled Diffusion	一对一	-	0.03	0.30	-
Tiled Diffusion	多对多	-	0.03	0.29	-

消融实验¶

配置	TS↓	CLIP-Score↑
完整方法	0.03	0.30
无拼贴约束（TC）	0.29	0.31
无相似性约束（SC，自拼贴）	0.03	0.30
无相似性约束（SC，多对多）	0.12	0.28

关键发现¶

拼贴约束是核心组件——去除后 TS 从 0.03 飙升至 0.29（与标准生成无异）
相似性约束在多对多场景中至关重要：无 SC 时 TS 从 0.03 降至 0.12
STI 在一对一场景中 TS = 0.14，远高于 Tiled Diffusion 的 0.03，因为 STI 独立生成后修复连接
方法随拼贴复杂度（\(n = |A_j| = |B_j|\) 从 1 到 5）扩展良好，TS 保持基本恒定

亮点与洞察¶

灵活的形式化定义：通过边集合的约束定义，统一涵盖自拼贴、一对一和多对多场景
推理时约束：无需训练或微调，直接在标准扩散模型推理过程中应用，兼容 SD 1.5/2.0/XL/3.0 和 ControlNet
潜空间上下文共享：同时生成所有拼贴图像并共享上下文，本质上优于先生成后修复的方案

局限与展望¶

拼贴约束的上下文窗口 \(w\) 需要手动调节平衡平滑度和变化度
大规模多图像拼贴可能受内存限制
360° 合成的水平拼贴质量优秀但垂直方向未处理
未来可探索 3D 纹理的拼贴扩展

评分¶

⭐⭐⭐⭐ — 问题定义清晰，方法简洁优雅，多对多拼贴的独特能力开辟了新的应用空间。作为推理时约束无需训练，实用性强。在纹理合成和 360° 全景生成中的应用令人印象深刻。