From Image to Video: An Empirical Study of Diffusion Representations¶

会议: ICCV 2025
arXiv: 2502.07001
代码: 无公开代码
领域: 3d_vision
关键词: 扩散模型, 视频表示学习, 图像vs视频扩散, 运动理解, WALT

一句话总结¶

系统对比了相同架构(WALT)在图像 vs 视频生成目标下训练的扩散模型在下游视觉理解任务上的表现，发现视频扩散模型在所有任务上一致优于图像对应物，尤其在需要运动和3D空间理解的任务上优势显著（点跟踪+68%、相机位姿+60%）。

研究背景与动机¶

扩散模型在图像和视频生成领域取得了巨大成功，其内部表示已被证明对图像理解任务有强大潜力（如分割、深度估计、关键点匹配等）。然而，一个关键问题尚未回答：

视频扩散表示几乎未探索：尽管视频扩散模型已能生成高质量视频内容，但其表示的理解能力完全未知。相比之下，图像扩散表示已有大量研究。

缺乏公平对比：要比较图像vs视频扩散的表示质量，需要相同架构在不同训练目标下的对比。但现有模型（如Stable Diffusion 2.1 vs SVD）参数量差异太大（865M vs 1.5B），无法得出有意义的结论。

时间信息的作用未知：视频训练引入的时序理解如何影响表示质量？运动信息是否增强了语义理解、3D感知或物体追踪能力？

核心洞察：WALT模型的混合架构恰好允许公平对比——相同参数量的模型可以分别用于图像和视频生成训练，仅在注意力窗口中是否包含时间维度上有所区别。这为首次直接对比提供了理想平台。

方法详解¶

WALT模型架构¶

WALT (Windowed-Attention Latent Transformer) 是一个基于Transformer的潜在扩散模型，关键特性包括：

共享tokenizer：使用MAGVIT-v2的因果3D CNN编码器，将图像和视频压缩到共享潜在空间。视频被编码为 \(z \in \mathbb{R}^{(1+m) \times h \times w \times c}\)，其中第一帧独立编码，后续 \(m=4\) 个latent表示16帧
窗口注意力：交替使用时空窗口块(spatio-temporal)和空间窗口块(spatial-only)
图像模式兼容：图像生成时，时空块中每个latent仅自注意（等效于identity mask）

I-WALT vs V-WALT¶

为公平对比，构建了两个模型： - V-WALT（视频模型）：标准WALT，时空窗口块同时做空间和时间注意力 - I-WALT（图像模型）：将时空窗口注意力块替换为仅空间窗口注意力块（相同参数量）

V-WALT在图像+视频数据集上训练；I-WALT在相同数据集上训练，但视频中随机抽帧作为独立图像。两者共享完全相同的架构和参数量。

特征提取与探测框架¶

将WALT作为冻结骨干，训练轻量级readout head评估下游任务：

特征提取：对输入添加噪声到时间步 \(t\)，前向传播一次（无需完整去噪），提取中间Transformer块的激活
readout架构：根据任务选择不同readout头
- 分类任务（ImageNet、K400等）：attentive readout（可学习query token + cross-attention + MLP）
- 深度估计：Scene Representation Transformer解码器（cross-attention + 逐像素MLP）
- 点/框跟踪：MooG风格的循环readout（预测-校正机制）

评估任务覆盖¶

从纯语义到时空理解的完整谱系： - 图像分类：ImageNet（物体）、Places365（场景）、iNat2018（细粒度） - 动作识别：K400/K700（外观主导）、SSv2（运动敏感） - 单目深度估计：ScanNet - 相机位姿估计：RealEstate10k - 视觉对应：点跟踪(Perception Test)、框跟踪(Waymo Open)

实验¶

主实验：视频 vs 图像扩散表示¶

任务	I-WALT(基线100%)	V-WALT相对提升	任务性质
Places365	100%	+0.6%	纯语义
ImageNet	100%	+1.8%	纯语义
iNat2018	100%	+11%	细粒度语义
K400	100%	+8%	外观理解
K700	100%	+12%	外观理解
SSv2	100%	+42%	运动理解
Depth	100%	+16%	3D感知
Cam. Pose	100%	+60%	空间理解
Obj. Tracks	100%	+23%	时空对应
PointTracks	100%	+68%	精确定位

关键发现： - V-WALT在所有10个任务上一致优于I-WALT，但提升幅度差异巨大（0.6%-68%） - 纯语义任务（Places365）几乎无差异，而需要运动/空间理解的任务（PointTracks、Cam. Pose、SSv2）提升最为显著 - iNat2018的+11%提升出乎意料，可能是视频训练增强了对细粒度视觉差异的敏感性

消融实验：噪声水平与网络层选择¶

设计选择	最优配置	影响观察
噪声水平 \(t\)	大多数任务t=200最优	高噪声普遍有害；跟踪任务对噪声更敏感(t=0-100最优)
网络块 \(l\)	~2/3深度处(l=11-16)最优	模型隐含分为编码器/解码器，最佳表示在交界处
训练进度	20%训练即达>90%性能	识别任务随训练持续提升；跟踪和深度任务较早达到峰值
模型规模	284M→1.9B显著提升	分类任务受益最大（类别数多时尤为明显），PointTracks例外

关键发现： - 少量噪声(t=200)有助于大多数任务，但跟踪等低层任务偏好零或极少噪声 - 最优特征层位于模型深度的~2/3处，暗示扩散模型存在隐式的编码器-解码器结构 - 相机位姿估计在26%训练后性能下降，暗示长时间训练可能导致特征偏向生成而非理解 - PCA可视化揭示V-WALT选择性关注运动区域，而I-WALT关注所有显著区域（包括静态物体）

与其他表示模型的对比¶

模型	类型	参数量	相对性能(vs I-WALT)
DINOv2	对比学习(图像)	300M	语义任务强，跟踪弱
SigLIP	图文对齐(图像)	400M	语义任务最强
V-JEPA	特征重建(视频)	300M	与V-WALT互有胜负
VideoMAE	像素重建(视频)	300M	整体稍弱
V-WALT(1.9B)	扩散(视频)	1.9B	大部分任务显著提升

V-WALT在深度和运动理解任务上具竞争力，但在纯语义任务上被DINOv2和SigLIP主导，揭示了生成式扩散模型在语义理解上的核心短板。

亮点与洞察¶

首次公平的图像vs视频扩散表示对比：利用WALT的混合架构，在完全控制变量的条件下得出结论——视频训练一致性地改善表示质量
运动敏感性的发现：PCA可视化和brick wall实验巧妙地揭示了V-WALT对运动区域的选择性关注，解释了其在时空任务上的优势
噪声和层深度的系统研究：为从扩散模型提取特征提供了实用指南——少量噪声(~200)、~2/3深度
训练动态的有趣观察：生成质量(FVD)持续改善，但部分下游任务在早期就达到峰值甚至开始下降，暗示生成能力与表示能力可能存在trade-off

局限性¶

仅使用WALT单一模型架构，结论的泛化性有待验证（尽管作者给出了充分理由）
使用Google内部数据集和模型训练，结果难以完全复现
未探索微调扩散模型（仅使用冻结特征+轻量探测），可能低估了扩散表示的潜力
readout head的选择可能影响结论，虽然采用了与先前工作一致的设计
未提供代码和模型权重

评分¶

创新性: ⭐⭐⭐⭐ — 首次系统对比但属实证研究，无新方法提出
技术质量: ⭐⭐⭐⭐⭐ — 实验设计严谨，变量控制到位，10个下游任务覆盖广
实验充分度: ⭐⭐⭐⭐⭐ — 主实验+噪声/层消融+训练动态分析+模型规模+对比模型，极为全面
表达清晰度: ⭐⭐⭐⭐⭐ — 图表简洁直观，结论清晰，讨论深入
综合评分: 8.0/10