Scaling Properties of Diffusion Models for Perceptual Tasks¶

会议: CVPR 2025
arXiv: 2411.08034
代码: https://scaling-diffusion-perception.github.io
领域: 扩散模型 / 视觉感知
关键词: 扩散模型缩放, 深度估计, 光流预测, 感知任务, 测试时计算

一句话总结¶

本文系统研究了扩散模型在深度估计、光流预测和 amodal 分割等感知任务上的 scaling 特性，建立了训练和推理的 power law 缩放规律，并证明通过增加测试时计算（更多去噪步数和多预测集成）可以显著提升性能，在使用远少于 SOTA 的数据和计算量的情况下达到了竞争力性能。

研究背景与动机¶

领域现状：扩散模型在图像/视频生成中展现了卓越的缩放特性，但在视觉感知（判别式）任务中的缩放行为研究不足。Marigold 等工作已经证明了将图像扩散模型用于深度估计的可行性，FlowDiffuser 用于光流，pix2gestalt 用于 amodal 分割，但这些工作独立进行，缺少统一框架和系统的缩放分析。

现有痛点：当前将扩散模型用于感知任务的方法主要依赖大规模预训练（如 Stable Diffusion 使用互联网规模数据），缺少对"如何高效缩放计算"的系统研究。实践中常面临计算预算有限的问题，但不清楚是应该增大模型、增加训练数据、提高分辨率还是增加推理计算。

核心矛盾：扩散模型的迭代去噪特性使其天然支持测试时计算缩放（增加步数/集成多预测），但缺乏系统的 scaling law 来指导最优的训练和推理配置，尤其是训练计算和测试时计算之间的 trade-off 不明确。

本文目标：统一多种视觉感知任务为图像到图像翻译框架，系统建立扩散模型在这些任务上的训练/推理缩放规律，提供 compute-optimal 方案。

切入角度：类比 LLM 领域 OpenAI o1 的测试时计算缩放——"让模型在推理时多思考 20 秒，效果等同于模型放大 10 万倍"。扩散模型的迭代去噪天然适合这种思路。

核心 idea：将深度估计、光流、amodal 分割统一为条件去噪扩散，在模型大小/预训练计算/分辨率/MoE upcycling/去噪步数/集成次数/噪声调度等多维度建立 scaling power law。

方法详解¶

整体框架¶

所有感知任务被统一为条件图像到图像翻译：给定 RGB 输入图像 \(I\) 和可选条件图像，通过 Stable Diffusion VAE 编码到潜空间，RGB 潜码 \(i_0\) 与随机加噪的 ground truth 潜码 \(d_t\) 在通道维度拼接，送入 DiT 模型条件去噪。推理时从纯噪声出发，通过 DDIM 迭代去噪生成感知预测。预训练在 ImageNet-1K 上进行类条件图像生成，再微调到具体感知任务。

关键设计¶

训练阶段缩放分析:
- 功能：找到模型大小、预训练计算、分辨率和 MoE 对下游性能的 power law 关系
- 核心思路：(a) 模型大小：训练 6 个 Dense DiT（14.8M 到 1.9B），发现预训练损失与计算量呈幂律 \(L(C) = 0.23 \times C^{-0.0098}\)。(b) 预训练计算：固定 a4 (458M)，不同步数（60K-120K），更多预训练持续提升微调性能。(c) 分辨率：256→512，token 数增 4×，深度估计呈幂律提升。(d) MoE Upcycling：将微调后 Dense 模型转 Sparse MoE 继续训练，AbsRel 平均提升 5.3%
- 设计动机：建立 scaling law 使研究者能在给定预算下选择最优配置
测试时计算缩放策略:
- 功能：利用扩散模型迭代和随机特性，推理时增加计算提升精度
- 核心思路：三种互补策略。(a) 增加去噪步数：\(T \in \{1,2,5,10,20,50,100\}\)，性能呈 power law 提升。(b) 测试时集成：\(N\) 次独立预测（\(N \in \{1,2,5,10,15,20\}\)），用逐像素 median 或 Marigold median compilation 合并，也呈 power law。(c) 噪声调度：cosine schedule 将更多计算分配到早期去噪步（全局结构），比 linear 更有效
- 设计动机：类比 LLM test-time scaling，扩散模型每步去噪的粗到细特性提供天然的"推理时思考"机制
统一多任务模型:
- 功能：一个 DiT-XL 同时完成深度、光流和 amodal 分割
- 核心思路：PatchEmbedRouter 根据任务类型路由到不同卷积层。混合数据集微调后用 upcycling 转 MoE 继续训练
- 设计动机：验证缩放策略的跨任务泛化性

损失函数 / 训练策略¶

标准 MSE 去噪损失。微调用指数衰减学习率 \(1.2 \times 10^{-4}\) → \(1.2 \times 10^{-6}\)。DiT 第一个卷积层通道翻倍适配 RGB+noise 拼接，权重减半初始化。推理用 DDIM + cosine beta schedule。最优推理配置：200 步去噪 + 5 次集成。

实验关键数据¶

主实验¶

深度估计：

方法	Hypersim AbsRel↓	ETH3D AbsRel↓	NYUv2 AbsRel↓	预训练数据
DPT	-	7.8	9.8	大规模
Marigold	13.5	6.5	5.5	互联网规模
Ours	13.6	4.8	6.8	ImageNet-1K

光流 (FlyingChairs)：Ours w/ ensemble 3.08 EPE vs DeepFlow 3.53

Amodal 分割：Ours 在 MP3D 上 63.9 mIOU vs pix2gestalt 61.5

消融实验¶

缩放维度	观察到的 power law	提升幅度
模型大小 (14.8M→1.9B)	\(L(C) \propto C^{-0.0098}\)	持续
预训练步数 (60K→120K)	明确幂律	持续
分辨率 (256→512)	4× tokens → 幂律提升	显著
MoE Upcycling	等效/超越更大 Dense 模型	AbsRel -5.3%
去噪步数 (1→100)	明确幂律	显著
集成次数 (1→20)	明确幂律	中等
Cosine vs Linear schedule	Cosine 显著更优	显著

关键发现¶

仅用 ImageNet-1K 预训练，在 ETH3D 上超越 Marigold（4.8 vs 6.5）后者用互联网规模数据——说明 scaling 策略比数据规模更重要
测试时计算的"性价比"极高——无需额外训练，增加步数和集成就能大幅提升
Cosine schedule 通过分配更多计算给全局结构重建（早期步），比 linear 更有效
MoE upcycling 是"免费午餐"——将已微调模型廉价增大容量，可达到甚至超越更大 Dense 模型

亮点与洞察¶

首次为扩散模型在感知任务上建立系统 scaling power law，提供 compute-optimal 指导
"测试时计算缩放"在视觉感知中的验证是重要贡献——暗示扩散模型不仅是生成工具，更是通用"迭代计算"范式
用远少于 SOTA 的数据达到竞争性能，证明 scaling 策略的重要性
训练 vs 推理计算的 trade-off 分析有很强的实践指导意义

局限与展望¶

感知性能仍有提升空间，特别是光流和 amodal 分割与专用方法有差距
推理速度是部署瓶颈——100 步 DDIM + 多次集成计算量大
当前 scaling law 基于 ImageNet-1K 建立，更大规模数据上的迁移性有待验证
未来可探索 consistency distillation 减少推理步数，以及更多感知任务的验证

评分¶

新颖性: ⭐⭐⭐⭐ — 各组件不新，但系统 scaling analysis 和测试时缩放视角有价值
实验充分度: ⭐⭐⭐⭐⭐ — 多维度缩放实验量极大，three tasks 验证全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，power law 拟合结果展示直观
价值: ⭐⭐⭐⭐ — 为扩散模型感知应用提供重要实践指导