Heterogeneous Decentralized Diffusion Models¶

会议: CVPR2026 arXiv: 2603.06741 代码: 待确认领域: 图像生成 关键词: 去中心化扩散模型, 异构训练目标, DDPM, Flow Matching, 专家混合, DiT, PixArt-α

一句话总结¶

提出异构去中心化扩散框架，允许不同专家使用不同扩散目标（DDPM ε-prediction 与 Flow Matching velocity-prediction）完全独立训练，在推理时通过确定性 schedule-aware 转换统一到速度空间进行融合，相比同构基线同时提升 FID 和生成多样性，并将计算量压缩 16 倍。

背景与动机¶

计算门槛高：前沿扩散模型训练需要大规模紧耦合集群（如数百 GPU-days），将参与权限限制在资源充足的机构
先前去中心化方案的局限：DDM (McAllister et al.) 证明了独立训练专家再组合的可行性，但要求所有专家使用同构训练目标，且需 1176 GPU-days + 158M 图像
真实去中心化场景的异构性：不同贡献者拥有不同资源、偏好与技术约束，强制统一训练目标不切实际
不同目标的互补特性：ε-prediction 在低噪声时步隐式加权更强（擅长细节保持），velocity-prediction 在高噪声时步加权更强（擅长全局结构），二者天然互补
预训练权重利用不足：大量已有 DDPM 预训练 checkpoint 未能被直接复用于 Flow Matching 训练
架构冗余：标准 DiT 的逐层 AdaLN 引入大量参数，PixArt-α 的 AdaLN-Single 可在保持质量的同时减少 30% 参数

方法详解¶

整体框架¶

数据集通过 DINOv2 特征提取 + 层次化 k-means 聚类划分为 K=8 个语义簇（如人像、风景、建筑等）。每个专家在各自簇上完全独立训练，无需梯度/参数/激活同步。推理时由路由器网络 \(p_\phi(k|x_t,t)\) 动态选择并融合专家预测。

异构目标设计¶

DDPM 专家（2 个）：预测噪声 \(\epsilon\)，使用 cosine 噪声调度，损失 \(\mathcal{L}_{\text{DDPM}}^{(k)} = \mathbb{E}[\|\epsilon_{\theta_k}(\alpha_t x_0 + \sigma_t \epsilon, t) - \epsilon\|^2]\)
Flow Matching 专家（6 个）：预测速度场 \(v\)，使用线性插值 \(x_t = (1-t)x_0 + t\epsilon\)，损失 \(\mathcal{L}_{\text{FM}}^{(k)} = \mathbb{E}[\|v_{\theta_k}(x_t, t) - (\epsilon - x_0)\|^2]\)
目标分配策略：将 DDPM 分配给包含高保真主体（如汽车、花卉）的簇 0 和簇 3

推理时确定性转换¶

DDPM 专家输出 \(\epsilon_\theta\) 需转为速度 \(v\) 与 FM 专家统一：

由 \(\epsilon_\theta\) 估计干净样本：\(\hat{x}_0 = (x_t - \sigma_t \epsilon_\theta) / \alpha_t\)
对线性插值 schedule（\(\alpha_t=1-t, \sigma_t=t\)），转换公式简化为：\(v(x_t,t) = \epsilon_\theta(x_t,t) - \hat{x}_0\)
数值稳定性保障：\(\hat{x}_0\) 钳位到 \([-20, 20]\)，\(\alpha_{\text{safe}} = \max(\alpha_t, 0.01)\)，高噪声 \(t>0.85\) 时使用自适应速度缩放

该转换为纯代数操作，无需任何重训练。

隐式时步加权互补性（理论分析）¶

将两种目标的损失统一表达为干净样本估计误差的加权形式：

ε-prediction 权重：\(w_\epsilon(t) = \alpha_t^2 / \sigma_t^2\)
v-prediction 权重：\(w_v(t) = 1 / \sigma_t^2\)
比值 \(w_v / w_\epsilon = 1/\alpha_t^2 \geq 1\)，在高噪声时步趋于无穷

这意味着 velocity-prediction 在高噪声时步获得更强梯度（关注全局结构），而 ε-prediction 在低噪声时步相对更强（关注局部细节），形成天然互补。

高效架构与 Checkpoint 转换¶

AdaLN-Single：通过全局 MLP 一次性计算所有层的调制参数 \(\mathbf{c} \in \mathbb{R}^{6Ld}\)，再加上 per-block 可学习嵌入 \(\mathbf{E}_b\)，参数从 891M 降至 605M（DiT-XL/2）
预训练 Checkpoint 转换：从 ImageNet DDPM DiT 权重出发，保留 patch embedding / positional embedding / transformer blocks，重新初始化 final layer 和 text projection，运行时将 FM 连续时步 \(t \in [0,1]\) 映射为 \(t_{\text{DiT}} = \text{round}(999t)\)，收敛加速 1.2×

路由器¶

架构：DiT-B/2（129M 参数），12 层 Transformer
输入：噪声潜变量 \(x_t\) + 时步 \(t\)（不使用文本条件）
训练：全数据集 + 真实簇标签，交叉熵损失，25 个 epoch
推理模式：Top-1 / Top-K / Full Ensemble

实验关键数据¶

去中心化 vs 单体训练（DiT-B/2, LAION-Art 3.9M）¶

推理策略	FID-50K ↓
单体模型	29.64
Top-1	30.60
Top-2	22.60
Full Ensemble	47.89

Top-2 专家选择比单体模型 FID 提升 23.7%，Full Ensemble 反而退化。

资源效率对比（DiT-XL/2）¶

方法	数据量	计算量	FID-50K ↓
DDM (先前工作)	158M	1176 A100-days	5.5–10.5
Ours 同构 (8FM)	11M	72 A100-days	12.45
Ours 异构 (2DDPM:6FM)	11M	72 A100-days	11.88

计算量减少 16×，数据量减少 14×。

同构 vs 异构对比（对齐推理设置 CFG=7.5, 50 steps）¶

模型	FID-50K ↓	Intra-prompt LPIPS ↑
同构 8FM	12.45	0.617 (±0.074)
异构 2DDPM:6FM	11.88	0.631 (±0.078)

异构方案同时提升质量（FID）和多样性（LPIPS）。

消融：DDPM→FM 转换与混合采样¶

采样方式	LPIPS ↑	FID ↓	CLIP ↑
原生 DDPM	0.787	27.04	0.316
原生 FM	0.752	20.23	0.324
DDPM→FM 转换	0.761	25.61	0.319
混合（同 schedule）	0.782	32.67	0.312

DDPM→FM 转换在不重训练的情况下有效提升 DDPM 质量（FID 27.04→25.61）；混合采样显著提升多样性但牺牲部分 FID。

消融：路由阈值¶

阈值 0.2 达到最优 FID（38.28），阈值 0.5 达到最高多样性（LPIPS），呈现质量-多样性权衡。

亮点¶

真正的异构去中心化：首次支持不同专家使用不同扩散目标独立训练，突破了先前 DDM 要求同构目标的限制
优雅的推理时统一：基于 schedule-aware 代数转换将 ε-prediction 确定性地映射到 velocity space，无需重训练
理论基础扎实：通过 Proposition 1 严格证明了 ε/v-prediction 在时步加权上的互补性，为异构设计提供理论支撑
极大幅度降低资源门槛：16× 计算压缩 + 14× 数据压缩，单专家仅需 20-48GB VRAM
同时提升质量和多样性：异构方案相比同构基线在 FID 和 LPIPS 上均有改善

局限性 / 可改进方向¶

目标比例未充分探索：仅评估了少数 DDPM:FM 比例（如 2:6），最优分配依赖数据分布和下游需求
转换数值稳定性依赖手工调参：高噪声时步的 clamping、safe denominator、adaptive scaling 均为手动设计
仅限两种目标族：未涉及 \(x_0\)-prediction、consistency objectives 等其他参数化形式
路由器不支持动态专家增减：添加/移除专家需重训练路由器
分辨率限制：实验仅在 256×256 上进行，未验证高分辨率场景
绝对 FID 与先前工作不可直接比较：DDM 在大 10 倍以上的训练规模下达到 5.5-10.5 FID

与相关工作的对比¶

方法	核心差异
DDM (McAllister 2025)	要求同构目标 + 1176 GPU-days；本文支持异构 + 72 GPU-days
Diff2Flow (Schusterbauer 2025)	单模型 DDPM→FM 微调转换；本文为多专家无训练推理时转换
PixArt-α (Chen 2024)	提出 AdaLN-Single 用于单体高效训练；本文将其应用于去中心化多专家场景
DiT (Peebles 2023)	基础 Transformer 扩散架构；本文在其上加入异构目标 + checkpoint 转换
DistriFusion (Li 2024)	分布式并行推理（patch 并行）；本文聚焦去中心化训练
VDM (Kingma 2021)	统一变分框架分析不同预测目标的隐式加权；本文利用其理论支撑异构互补性

评分¶

新颖性: ⭐⭐⭐⭐ — 异构目标的去中心化扩散训练是新颖的方向，推理时代数转换简洁优雅
实验充分度: ⭐⭐⭐⭐ — 包含多尺度模型对比、消融分析、路由阈值分析和大量定性结果，但缺少高分辨率和更多目标比例的探索
写作质量: ⭐⭐⭐⭐ — 结构清晰，理论推导完整，符号一致
价值: ⭐⭐⭐⭐ — 大幅降低去中心化扩散训练门槛，为社区驱动的模型开发提供可行路径