Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems¶

会议: CVPR 2026
arXiv: 2603.13069
代码: 待确认
领域: 扩散模型理论 / 图像生成 / 分形几何
关键词: 分形几何, 扩散模型, 分区迭代函数系统, DDIM, 噪声调度, 分形维度

一句话总结¶

证明 DDIM 确定性反向链等价于分区迭代函数系统（PIFS），从分形几何推导出三个可计算量（收缩阈值 \(L_t^*\)、对角膨胀函数 \(f_t(\lambda)\)、全局膨胀阈值 \(\lambda^{**}\)），统一解释了余弦调度偏移、分辨率 logSNR 偏移、Min-SNR 损失加权和 Align Your Steps 采样调度四种经验设计选择。

背景与动机¶

现代得分匹配扩散模型通过顺序去噪过程构建高质量图像，理论基础是连续时间 SDE 或概率流 ODE。但这种连续视角将学习到的得分网络视为黑箱，无法结构性地解释离散采样链如何在早期步骤组装全局空间上下文、在后期步骤合成局部细节，也无法解释为什么自注意力机制是如此有效的生成原语。现有的调度选择（余弦偏移 \(s_{off}=0.008\)）、Min-SNR 加权（\(\gamma=5\)）等均基于经验调参，缺乏统一的理论解释。

核心问题¶

扩散模型将噪声转化为图像的过程究竟在做什么？DDIM 反向链的数学结构是什么？能否从这一结构出发推导出统一的设计语言，解释并指导噪声调度、训练目标和采样策略的选择？

方法详解¶

整体框架¶

将 DDIM 单步算子 \(\Phi_t(x) = \sqrt{\bar\alpha_{t-1}/\bar\alpha_t}\,x + b_t\,\hat\varepsilon_\theta(x,t)\) 视为 PIFS 的仿射映射，通过分析其 Jacobian 的谱结构推导收缩/膨胀特性，再利用 Moran 方程计算吸引子维度。

关键设计¶

收缩结构分析（Section 3）：推导两种收缩条件——欧几里得收缩 (EC) 基于闭式收缩阈值 \(L_t^* = (\sqrt{\bar\alpha_{t-1}/\bar\alpha_t}-1)/|b_t|\)（仅依赖噪声调度，不依赖数据或网络），以及块最大范数收缩 (PC)，将对角项 \(\kappa_t^{diag}\) 和跨 patch 耦合 \(\delta_t^{cross}\) 分离。证明得分匹配训练是 Barnsley 拼贴最小化的扩散类比，建立 \(L_2\)-\(\mathcal{W}_1\) 桥。
两阶段结构（Section 4）：高噪声 Regime I（全局上下文组装）——注意力广播，方向性"抑制场" \(S_{k,t}\) 将每个对角块保持在膨胀阈值以下；低噪声 Regime II（细节合成）——注意力局部化，抑制按照 patch 方差从小到大依次释放（Stratified Crossover），Spearman 秩相关符号反转后再恢复。
吸引子几何（Section 5）：通过 Lyapunov 谱定义 Kaplan-Yorke 维度。全局膨胀阈值 \(\lambda^{**}\) 是离散 Moran 方程 \(\prod_t f_t(\lambda^{**})=1\) 的唯一解。Patch 方差超过 \(\lambda^{**}\) 的方向贡献正 Lyapunov 指数。抑制场修正后的维度 \(d_{KY}^{eff} \leq d_{KY}\)。
三条设计准则（Section 6）：(i) 最大化最弱环节收缩阈值 \(\min_t L_t^*\)；(ii) 均衡每步 Lyapunov 贡献（等价于信息增益恒定条件）；(iii) 将采样步骤集中在 \(L_t^*\) 最小处以均衡收缩工作负载。

损失函数 / 训练策略¶

标准 DSM 损失等价于（加 SNR 时间步加权的）拼贴误差。提出 PIFS 正则化损失 \(\mathcal{L}_{PIFS} = \mathcal{L}(\theta) + \mu_{reg}\sum_{t,k,j\neq k}\|[J_x\hat\varepsilon_\theta]_{kj}\|_F^2\)，直接惩罚跨 patch Jacobian 块以增强 (PC) 收缩余量，梯度可通过 \(O(M^2 n_k)\) JVP/VJP 操作计算。

实验关键数据¶

实验在 DDPM CIFAR-10（32×32，8×8 patches，\(M\)=16）和 CelebA-HQ-256（64×64，16×16 patches）上验证：

预测	测量结果	说明
Regime I 对角块近中性	\(\kappa_t^{diag}\approx 1.000\)（范围 0.993-1.007）	抑制场维持
Regime II 对角块膨胀	\(\kappa_t^{diag}\) 从 1.007 升至 1.211	低噪声释放
(PC) 交叉窗口	\(\sim\)40步（\(t\)∈[160,200]）	从87.5%违反降至0%
(MM) Spearman 相关	峰值 \(\rho\)=0.953 (\(p\)=1.2e-8) at \(t\)=601	抑制随 patch 方差递增
得分偏差 \(O(\bar\alpha_t)\)	OLS 斜率 0.95, CI [0.88,1.02], \(R^2\)=0.994	与理论预测一致
CelebA \(d_{KY}^{eff}=0\)	所有16 patches 的 \(\Lambda_{eff,k}<0\)	16/16 符号一致

余弦调度 IG 变异系数 0.867 vs 线性的 1.107；\(L_t^*\) 变异系数线性 0.341 vs 余弦 0.474——两个准则无法被同一调度同时最优化。

消融实验要点¶

PIFS Moran 阈值 CIFAR-10 全训练链 \(\lambda^{**}\)=1.0024，所有 16 patches \(\lambda_k\in[18.7,44.4]\) 远超阈值，\(d_{KY}=n=3072\)（饱和）
CelebA-HQ 因强抑制场使 \(\lambda^{***}=500 \gg \lambda_{max}=231.7\)，\(d_{KY}^{eff}=0\)——反映该模型低多样性、高保真的特性
50 步 DDIM 子采样保持与 1000 步相同的阶段结构和 \(L_t^*\) 分布（步长不变性）
余弦偏移 \(s_{off}=0.008\) 将 \(L_1^*\) 从 7.9e-4 提升至 3.2e-3（4 倍改善），精确对应 Criterion 1

亮点¶

从分形几何角度为扩散模型提供了全新的、高度原创的理论视角
三个可计算量 \(L_t^*\)、\(f_t(\lambda)\)、\(\lambda^{**}\) 不需要模型评估即可完全刻画去噪动力学
将四种独立发现的经验性设计选择统一在一个数学框架下，解释力极强
全文 27 个定理/推论构成完整理论体系，同时有详尽实验验证

局限性¶

理论分析限于 DDIM 确定性情况，DDPM 随机采样器和 Flow Matching 仅在附录初步扩展
基于 Gaussian 数据的 block-diagonal 协方差假设在真实数据上仅近似成立
实验验证使用相对简单的 DDPM 模型（CIFAR-10/CelebA），未在 DiT 等现代架构上验证
PIFS 正则化器 \(\mathcal{L}_{PIFS}\) 的训练效果改善幅度未给出定量对比

与相关工作的对比¶

Raya & Ambrogioni (NeurIPS 2023)：报告了扩散模型中的自发对称性破缺现象，本文从 PIFS 角度给出了这一两阶段结构的结构性证明
Nichol & Dhariwal (ICML 2021)：经验性提出余弦调度偏移 \(s_{off}=0.008\)，本文证明这是最大化 \(\min_t L_t^*\) 的近似解
Min-SNR (ICCV 2023)：从多任务学习角度提出损失加权，本文证明其等价于均衡 KY 维度增长率
Align Your Steps (ICML 2024)：从 KL 散度角度优化采样步骤分配，本文从收缩工作负载角度独立推导出相同的分配密度

评分¶

新颖性: ⭐⭐⭐⭐⭐ (PIFS 理论与扩散模型的联系、三个可计算量、统一四种经验设计)
实验充分度: ⭐⭐⭐⭐ (理论预测的系统性实验验证，7 个子节)
写作质量: ⭐⭐⭐⭐ (严谨的数学推导配合清晰的直觉解释)
价值: ⭐⭐⭐⭐ (为扩散模型设计提供了第一性原理的理论框架)