Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems¶
会议: CVPR 2026
arXiv: 2603.13069
代码: 待确认
领域: 扩散模型理论 / 图像生成 / 分形几何
关键词: 分形几何, 扩散模型, 分区迭代函数系统, DDIM, 噪声调度, 分形维度
一句话总结¶
证明 DDIM 确定性反向链等价于分区迭代函数系统(PIFS),从分形几何推导出三个可计算量(收缩阈值 \(L_t^*\)、对角膨胀函数 \(f_t(\lambda)\)、全局膨胀阈值 \(\lambda^{**}\)),统一解释了余弦调度偏移、分辨率 logSNR 偏移、Min-SNR 损失加权和 Align Your Steps 采样调度四种经验设计选择。
背景与动机¶
现代得分匹配扩散模型通过顺序去噪过程构建高质量图像,理论基础是连续时间 SDE 或概率流 ODE。但这种连续视角将学习到的得分网络视为黑箱,无法结构性地解释离散采样链如何在早期步骤组装全局空间上下文、在后期步骤合成局部细节,也无法解释为什么自注意力机制是如此有效的生成原语。现有的调度选择(余弦偏移 \(s_{off}=0.008\))、Min-SNR 加权(\(\gamma=5\))等均基于经验调参,缺乏统一的理论解释。
核心问题¶
扩散模型将噪声转化为图像的过程究竟在做什么?DDIM 反向链的数学结构是什么?能否从这一结构出发推导出统一的设计语言,解释并指导噪声调度、训练目标和采样策略的选择?
方法详解¶
整体框架¶
将 DDIM 单步算子 \(\Phi_t(x) = \sqrt{\bar\alpha_{t-1}/\bar\alpha_t}\,x + b_t\,\hat\varepsilon_\theta(x,t)\) 视为 PIFS 的仿射映射,通过分析其 Jacobian 的谱结构推导收缩/膨胀特性,再利用 Moran 方程计算吸引子维度。
关键设计¶
- 收缩结构分析(Section 3):推导两种收缩条件——欧几里得收缩 (EC) 基于闭式收缩阈值 \(L_t^* = (\sqrt{\bar\alpha_{t-1}/\bar\alpha_t}-1)/|b_t|\)(仅依赖噪声调度,不依赖数据或网络),以及块最大范数收缩 (PC),将对角项 \(\kappa_t^{diag}\) 和跨 patch 耦合 \(\delta_t^{cross}\) 分离。证明得分匹配训练是 Barnsley 拼贴最小化的扩散类比,建立 \(L_2\)-\(\mathcal{W}_1\) 桥。
- 两阶段结构(Section 4):高噪声 Regime I(全局上下文组装)——注意力广播,方向性"抑制场" \(S_{k,t}\) 将每个对角块保持在膨胀阈值以下;低噪声 Regime II(细节合成)——注意力局部化,抑制按照 patch 方差从小到大依次释放(Stratified Crossover),Spearman 秩相关符号反转后再恢复。
- 吸引子几何(Section 5):通过 Lyapunov 谱定义 Kaplan-Yorke 维度。全局膨胀阈值 \(\lambda^{**}\) 是离散 Moran 方程 \(\prod_t f_t(\lambda^{**})=1\) 的唯一解。Patch 方差超过 \(\lambda^{**}\) 的方向贡献正 Lyapunov 指数。抑制场修正后的维度 \(d_{KY}^{eff} \leq d_{KY}\)。
- 三条设计准则(Section 6):(i) 最大化最弱环节收缩阈值 \(\min_t L_t^*\);(ii) 均衡每步 Lyapunov 贡献(等价于信息增益恒定条件);(iii) 将采样步骤集中在 \(L_t^*\) 最小处以均衡收缩工作负载。
损失函数 / 训练策略¶
标准 DSM 损失等价于(加 SNR 时间步加权的)拼贴误差。提出 PIFS 正则化损失 \(\mathcal{L}_{PIFS} = \mathcal{L}(\theta) + \mu_{reg}\sum_{t,k,j\neq k}\|[J_x\hat\varepsilon_\theta]_{kj}\|_F^2\),直接惩罚跨 patch Jacobian 块以增强 (PC) 收缩余量,梯度可通过 \(O(M^2 n_k)\) JVP/VJP 操作计算。
实验关键数据¶
实验在 DDPM CIFAR-10(32×32,8×8 patches,\(M\)=16)和 CelebA-HQ-256(64×64,16×16 patches)上验证:
| 预测 | 测量结果 | 说明 |
|---|---|---|
| Regime I 对角块近中性 | \(\kappa_t^{diag}\approx 1.000\)(范围 0.993-1.007) | 抑制场维持 |
| Regime II 对角块膨胀 | \(\kappa_t^{diag}\) 从 1.007 升至 1.211 | 低噪声释放 |
| (PC) 交叉窗口 | \(\sim\)40步(\(t\)∈[160,200]) | 从87.5%违反降至0% |
| (MM) Spearman 相关 | 峰值 \(\rho\)=0.953 (\(p\)=1.2e-8) at \(t\)=601 | 抑制随 patch 方差递增 |
| 得分偏差 \(O(\bar\alpha_t)\) | OLS 斜率 0.95, CI [0.88,1.02], \(R^2\)=0.994 | 与理论预测一致 |
| CelebA \(d_{KY}^{eff}=0\) | 所有16 patches 的 \(\Lambda_{eff,k}<0\) | 16/16 符号一致 |
余弦调度 IG 变异系数 0.867 vs 线性的 1.107;\(L_t^*\) 变异系数线性 0.341 vs 余弦 0.474——两个准则无法被同一调度同时最优化。
消融实验要点¶
- PIFS Moran 阈值 CIFAR-10 全训练链 \(\lambda^{**}\)=1.0024,所有 16 patches \(\lambda_k\in[18.7,44.4]\) 远超阈值,\(d_{KY}=n=3072\)(饱和)
- CelebA-HQ 因强抑制场使 \(\lambda^{***}=500 \gg \lambda_{max}=231.7\),\(d_{KY}^{eff}=0\)——反映该模型低多样性、高保真的特性
- 50 步 DDIM 子采样保持与 1000 步相同的阶段结构和 \(L_t^*\) 分布(步长不变性)
- 余弦偏移 \(s_{off}=0.008\) 将 \(L_1^*\) 从 7.9e-4 提升至 3.2e-3(4 倍改善),精确对应 Criterion 1
亮点¶
- 从分形几何角度为扩散模型提供了全新的、高度原创的理论视角
- 三个可计算量 \(L_t^*\)、\(f_t(\lambda)\)、\(\lambda^{**}\) 不需要模型评估即可完全刻画去噪动力学
- 将四种独立发现的经验性设计选择统一在一个数学框架下,解释力极强
- 全文 27 个定理/推论构成完整理论体系,同时有详尽实验验证
局限性¶
- 理论分析限于 DDIM 确定性情况,DDPM 随机采样器和 Flow Matching 仅在附录初步扩展
- 基于 Gaussian 数据的 block-diagonal 协方差假设在真实数据上仅近似成立
- 实验验证使用相对简单的 DDPM 模型(CIFAR-10/CelebA),未在 DiT 等现代架构上验证
- PIFS 正则化器 \(\mathcal{L}_{PIFS}\) 的训练效果改善幅度未给出定量对比
与相关工作的对比¶
- Raya & Ambrogioni (NeurIPS 2023):报告了扩散模型中的自发对称性破缺现象,本文从 PIFS 角度给出了这一两阶段结构的结构性证明
- Nichol & Dhariwal (ICML 2021):经验性提出余弦调度偏移 \(s_{off}=0.008\),本文证明这是最大化 \(\min_t L_t^*\) 的近似解
- Min-SNR (ICCV 2023):从多任务学习角度提出损失加权,本文证明其等价于均衡 KY 维度增长率
- Align Your Steps (ICML 2024):从 KL 散度角度优化采样步骤分配,本文从收缩工作负载角度独立推导出相同的分配密度
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (PIFS 理论与扩散模型的联系、三个可计算量、统一四种经验设计)
- 实验充分度: ⭐⭐⭐⭐ (理论预测的系统性实验验证,7 个子节)
- 写作质量: ⭐⭐⭐⭐ (严谨的数学推导配合清晰的直觉解释)
- 价值: ⭐⭐⭐⭐ (为扩散模型设计提供了第一性原理的理论框架)