Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems¶

会议: CVPR 2026
arXiv: 2603.13069
代码: 无
领域: 图像生成
关键词: 扩散模型, 分区迭代函数系统(PIFS), 分形几何, Jacobian分析, Kaplan-Yorke维度

一句话总结¶

证明了DDIM确定性反向链本质上是一个分区迭代函数系统(PIFS)，并从该框架推导出三个无需模型评估的可计算几何量，从第一性原理统一解释了扩散模型的双阶段去噪动力学、自注意力的有效性，以及四种经验设计选择（cosine schedule offset、分辨率相关logSNR偏移、Min-SNR损失加权、Align Your Steps采样）。

研究背景与动机¶

1. 领域现状¶

扩散模型通过顺序去噪过程生成高质量图像，理论基础是连续时间SDE或概率流ODE，已有全局 \(\mathcal{W}_2\) 分布收敛保证。但连续视角将学习到的score网络视为黑盒。

2. 痛点¶

现有理论无法结构性地解释两个关键现象：(a) 为什么早期步骤组装全局空间上下文、后期步骤合成局部细节？(b) 为什么自注意力作为生成原语如此有效？诸多经验设计（cosine offset、Min-SNR加权等）缺乏统一的几何解释。

3. 核心矛盾¶

连续SDE/ODE框架提供了优雅的分布收敛保证，但无法揭示离散采样链如何在每一步中组装图像结构——理论优雅性与结构可解释性之间存在张力。

4. 要解决什么¶

为DDIM反向链的双阶段动力学提供结构性证明
解释自注意力在扩散模型中的几何角色
从统一框架推导出实用设计准则，解释现有经验技巧

5. 切入角度¶

将DDIM确定性反向链 \(\Phi = \Phi_1 \circ \cdots \circ \Phi_T\) 视为分区迭代函数系统(PIFS)——这是分形图像压缩中的经典数学结构，天然适配处理局部自相似性。

6. 核心idea¶

每一步DDIM算子 \(\Phi_t\) 的Jacobian可分解为对角块（patch内）和交叉块（patch间），其收缩/膨胀行为由三个仅依赖噪声调度和patch协方差的闭式常量完全刻画，无需运行模型即可分析去噪动力学。

方法详解¶

整体框架¶

论文建立了DDIM → PIFS的数学映射，核心链路为：

收缩结构分析(§3)：推导单步DDIM算子的收缩条件
双阶段结构分析(§4)：从数据统计和架构属性计算常量，解释两个去噪阶段
吸引子几何(§5)：通过Lyapunov谱计算PIFS吸引子的分形维度
实用设计准则(§6)：从PIFS框架推导三个优化准则，统一解释四种经验设计

关键设计¶

设计一：双重收缩条件 (EC) 和 (PC)¶

功能：为DDIM单步算子 \(\Phi_t(x) = \frac{\sqrt{\bar\alpha_{t-1}}}{\sqrt{\bar\alpha_t}} x + b_t \hat\varepsilon_\theta(x,t)\) 建立两种收缩性条件。

核心思路：Jacobian \(J_x\Phi_t = \frac{\sqrt{\bar\alpha_{t-1}}}{\sqrt{\bar\alpha_t}} I + b_t J_x\hat\varepsilon_\theta\) 包含膨胀项（尺度 \(>1\) 的恒等缩放）和收缩项（\(b_t < 0\) 的score修正），收缩性取决于score Jacobian的代数性质。

(EC) 欧氏收缩：全局条件，定义收缩阈值 \(L_t^* = \frac{\sqrt{\bar\alpha_{t-1}/\bar\alpha_t} - 1}{|b_t|}\)，仅依赖噪声调度
(PC) 块-最大范数收缩：patch级条件，将Jacobian分解为对角块 \(\kappa_t^{\mathrm{diag}}\) 和交叉块 \(\delta_t^{\mathrm{cross}}\)，要求 \(\kappa_t^{\mathrm{diag}} + \delta_t^{\mathrm{cross}} < 1\)

设计动机：自然图像具有局部自相似性（非全局），需要patch级收缩保证而非全局收缩。这正是经典PIFS优于IFS的地方。

设计二：方向性抑制场与分层释放¶

功能：引入方向性抑制场 \(S_{k,t}(x) = |b_t| \langle v_k^{(1)}, [\nabla_x \Delta_t(x)]_{kk} v_k^{(1)} \rangle\)，量化训练score网络对每个patch的非高斯修正。

核心思路：高斯基线下，对角块谱范数 \(f_t(\lambda_k)\) 在所有CIFAR-10 patch上都 \(>1\)（膨胀），但训练后网络学习到抑制场 \(S_{k,t} > 0\)，将有效Rayleigh商压到1以下。关键定理（Stratified Crossover, Thm 22）证明：在Margin Monotonicity条件(MM)下，低方差patch先释放抑制、高方差patch后释放，产生严格的方差顺序化释放。

设计动机：解释Regime I中对角块保持 \(\approx 1\) 而非按高斯预测膨胀的现象，以及Regime II中patch逐个"解锁"细节合成的机制。

设计三：吸引子的Kaplan-Yorke维度公式¶

功能：推导PIFS吸引子的分形维度，建立离散Moran方程 \(\prod_t f_t(\lambda^{**}) = 1\) 求解全局膨胀阈值 \(\lambda^{**}\)。

核心思路：在高斯数据 + 块对角协方差假设下，Lyapunov谱完全由每步对角膨胀函数 \(f_t(\lambda)\) 确定。对角方向 \(\lambda_k > \lambda^{**}\) 的为膨胀方向，KY维度公式为：

\[d_{\mathrm{KY}} = N^+ + \frac{\sum_{k:\lambda_k > \lambda^{**}} n_k \Lambda(\lambda_k)}{|\Lambda_{k^*}^-|}\]

对非高斯数据，抑制修正版本 \(d_{\mathrm{KY}}^{\mathrm{eff}} \leq d_{\mathrm{KY}}\)，抑制只会缩小吸引子维度。

设计动机：提供无需模型评估的吸引子维度预测，连接噪声调度设计与生成流形的几何性质。

损失函数/训练策略¶

Collage类比（Thm 12）：DSM训练目标等价于PIFS的collage误差最小化（up to SNR加权）
\(L^2\)–\(\mathcal{W}_1\) Bridge（Thm 14）：训练损失控制到PIFS不动点的Wasserstein-1距离
PIFS正则化器（Thm 15）：\(\mathcal{L}_{\mathrm{PIFS}}(\theta) = \mathcal{L}(\theta) + \mu_{\mathrm{reg}} \sum_{t,k,j\neq k} \|[J_x\hat\varepsilon_\theta]_{kj}\|_F^2\)，直接强制(PC)条件，可通过JVP/VJP高效计算

实验关键数据¶

主实验：Block-Jacobian分解验证双阶段结构¶

在预训练DDPM CIFAR-10模型上，使用8×8 patch（\(M=16\), \(n_k=192\)）和50步DDIM采样器验证理论预测。

训练步 \(t\)	\(\hat\kappa_t^{\mathrm{diag}}\)	\(\hat\delta_t^{\mathrm{cross}}\)	全局 \(\hat\kappa_t\)	阶段
980	1.0004	0.0007	1.0011	高噪声
800	1.0002	0.0008	1.0010	高噪声
600	1.0000	0.0853	1.0853	Regime I
400	1.0026	0.1273	1.1300	Regime I
220	1.0325	0.0768	1.1092	Regime II
20	1.2111	0.1858	1.3969	细节

关键发现：Regime I中全局膨胀完全由交叉patch耦合驱动（对角块 \(\approx 1\)）；Regime II中对角块开始膨胀，注意力局部化。

注意力熵与交叉patch耦合¶

\(t\)	注意力熵 \(H(A_t)\) (nats)	\(\hat\delta_t^{\mathrm{cross}}\)	阶段
980	4.963	0.00946	高噪声
560	4.662	0.09463	Regime I
160	4.541	0.42899	Regime II
20	4.063	2.06175	细节

\(\hat\delta_t^{\mathrm{cross}}\) 从 \(t=980\) 到 \(t=20\) 增长218倍。Spearman \(\rho(H, \hat\delta^{\mathrm{cross}}) = -1.000\)（\(p < 0.001\)），耦合与熵完美反相关。

消融实验¶

(PC)条件crossover验证¶

\(t\)	阶段	平均margin slack	违反比例
700	Regime I	\(-0.003942\)	16/16
200	I/II过渡	\(-0.000304\)	14/16
160	Regime II	\(+0.001382\)	0/16
40	Regime II	\(+0.006412\)	0/16

Crossover发生在 \(t \in [160, 200]\)，约40步窗口。Regime I全面违反(PC)，Regime II全面满足。

分层释放的Spearman相关¶

在crossover区间（\(t=240,260\)），\(\rho(\hat\lambda_k, \hat\kappa_t^{\mathrm{diag}})\) 为负且显著（\(p \leq 0.047\)），确认低方差patch先释放。深度Regime II（\(t=40\)）回到正 \(\rho = 0.771\)（\(p=0.001\)），高斯排序恢复。

抑制修正KY维度（CelebA-HQ实验）¶

在google/ddpm-celebahq-256模型上，\(\lambda_k \in [38.7, 231.7]\)，高斯基线预测 \(d_{\mathrm{KY}} = 12288\)（全维膨胀），但抑制修正Moran阈值 \(\lambda^{***} = 500 \gg \lambda_{\max}\)，预测 \(d_{\mathrm{KY}}^{\mathrm{eff}} = 0\)。全部16个patch的预测Lyapunov指数与实测指数符号一致（100%）。

关键发现¶

Score偏差缩放：高噪声区域 \(\|\Delta_t\|_2 = O(\sqrt{\bar\alpha_t})\)，OLS拟合斜率 \(0.95\)（95% CI \([0.88, 1.02]\)），与理论预测一致
信息增益-KY维度正比性：\(\rho(\mathrm{IG}_t, |\Delta d_t|) \geq 0.9999\)，比值的CV仅3.4%，几乎完美满足Cauchy-Schwarz等号条件
噪声调度对比：线性调度 \(L_t^*\) 均衡性最好（CV 0.341），cosine调度信息增益均衡性更好（CV 0.867 vs 1.107）

亮点与洞察¶

深刻的数学联系：将扩散模型与分形图像压缩通过PIFS框架桥接，揭示了score matching = collage误差最小化这一精妙对应
三个无模型常量：\(L_t^*\)（收缩阈值）、\(f_t(\lambda)\)（对角膨胀函数）、\(\lambda^{**}\)（全局膨胀阈值）完全由调度和数据统计决定，构成通用设计语言
解释四种经验设计的统一理论：cosine offset提升最弱环节 \(L_1^*\)（4倍），Min-SNR实现KY维度增长均衡化，分辨率shift保持Moran比值不变，AYS将步骤集中在 \(L_t^*\) 最小处
自注意力的几何角色：query token = range block，key/value token = domain block，\(A_{kj}\) = 软域-范围配对；hard attention极限精确恢复经典PIFS结构，交叉耦合 \(\delta_t^{\mathrm{cross}}\) 由注意力权重界定

局限与展望¶

高斯patch假设：核心分析依赖块对角高斯协方差假设，非高斯情况（如纹理丰富的数据）需更精细的抑制场建模
PIFS正则化器未实验验证：提出了 \(\mathcal{L}_{\mathrm{PIFS}}\) 正则项但未进行端到端训练实验，实际训练效果待验证
仅限DDIM确定性采样：分析主要针对DDIM（概率流ODE），对DDPM随机采样的适用性未详细讨论
注意力梯度的regime I界松散：Thm 23中 \(\|\nabla_x A_{k\ell}\|_{\mathrm{op}}\) 在Regime I是松的，更精确的query/key温度刻画留作未来工作
skip connection的影响：UNet架构的encoder skip connection超出注意力界的范围，\(\delta_t^{\mathrm{cross,skip}}\) 在Regime II可能主导但未精确量化

评分¶

⭐⭐⭐⭐⭐ 理论深度极高的工作，将分形几何与扩散模型完美对接，从第一性原理统一解释了多个孤立的经验技巧，数学推导严谨且实验验证全面（CIFAR-10 + CelebA-HQ），对扩散模型的理解和设计具有范式级启发价值。