跳转至

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation

日期: 2026-03-10
arXiv: 2603.09721
代码: 有
领域: 图像生成 / 视频生成
关键词: diffusion transformer, video generation, matrix attention, temporal modeling, efficiency

一句话总结

提出帧级矩阵注意力机制——将每帧表示为矩阵而非展平 token 序列,通过 Frobenius 内积计算帧间相似度进行时间建模,实现全 3D 注意力的表达能力与局部注意力的计算效率平衡,在多个视频生成基准上达到 SOTA。

研究背景与动机

  1. 领域现状: 视频扩散模型在时间建模上面临表达能力与计算效率的权衡。
  2. 现有痛点: (i) 全 3D 注意力计算复杂度平方增长,限制长视频生成;(ii) 局部注意力虽高效但难以捕捉大幅度运动和全局时间结构。
  3. 核心 idea: 在帧矩阵级别而非 token 级别计算注意力,单次操作即可捕获帧间全局关系。

方法详解

整体框架

视频 latent \(\{z^1, ..., z^T\}\)(每帧 \(z^t \in \mathbb{R}^{N \times D}\),N 个空间 token)→ 空间注意力(标准 self-attention 处理帧内)→ 帧级矩阵注意力(新增,处理帧间全局时序关系)→ 去噪输出

关键设计

  1. 帧级矩阵注意力(核心创新):

    • 做什么:在"帧"而非"token"粒度上做时序注意力
    • 核心思路:将每帧表示为矩阵 \(z^t \in \mathbb{R}^{N \times D}\),通过矩阵原生操作计算 Q/K/V,用 Frobenius 内积 \(\langle Q_i, K_j \rangle_F = \text{tr}(Q_i^T K_j)\) 作为帧间相似度度量
    • 注意力权重:\(A_{ij} = \text{softmax}(\langle Q_i, K_j \rangle_F / \sqrt{d})\)
    • 输出:\(O_i = \sum_j A_{ij} V_j\)(帧级加权和)
    • 多头变体:将 \(N\)\(D\) 维度分割为多个子矩阵,每个"头"关注不同的时空模式
    • 设计动机:标准 3D 注意力将所有帧的 token 展平→\(O(T^2 N^2)\) 复杂度;矩阵注意力在帧级操作→\(O(T^2 N_{qk} + TN^2)\),当 \(N_{qk} \ll N\) 时接近局部注意力的代价
    • 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
  2. 两种架构变体:

    • FrameDiT-G(Global): 用矩阵注意力替代原有的局部时间注意力块
    • FrameDiT-H(Hybrid): 在保留局部时间注意力的同时并行添加矩阵注意力分支,门控融合两者输出
    • 选择依据:G 变体更高效(参数更少),H 变体在长视频上更优(兼顾局部细节+全局结构)
  3. 与预训练模型的兼容性:

    • 矩阵注意力模块初始化为零(初始时不改变原模型输出)
    • 仅微调新增模块,冻结预训练扩散 backbone
    • 参数增量仅 ~8%

复杂度分析

  • Full 3D attention: \(O(T^2 N^2)\)——帧数和 token 数的平方增长
  • 局部时间 attention: \(O(TN^2 + TwN)\)(w=窗口大小)——无全局时序
  • FrameDiT-G: \(O(TN^2 + T^2 N_{qk})\)——帧间全局但比 Full 3D 低很多

实验关键数据

基准 FrameDiT 最佳基线
Taichi-HD FVD 66.15 68.0 (Full 3D)
Sky-Timelapse FVD 39.5 42.7 (Latte)
VBench 质量分 81.69 79.72

关键发现

  • 矩阵注意力以极小计算代价近似全 3D 注意力效果
  • 混合架构(H)在长视频生成中更优
  • 运动更流畅自然(定性评估)

亮点与洞察

  • 帧级矩阵注意力 灵感优美——在正确的抽象层级做注意力,而非暴力展平
  • 与预训练模型兼容,仅需微调新增模块
  • 长视频生成中优势更明显

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 矩阵表示可能丢失微细 token 级信息
  • 行权重矩阵超参缺乏理论指导
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 矩阵级注意力设计独到
  • 实验充分度: ⭐⭐⭐⭐⭐ 多基准 + VBench 评估
  • 写作质量: ⭐⭐⭐⭐⭐ 复杂度分析透彻
  • 价值: ⭐⭐⭐⭐⭐ 对高效视频生成有重要贡献