FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation¶

日期: 2026-03-10
arXiv: 2603.09721
代码: 有
领域: 图像生成 / 视频生成
关键词: diffusion transformer, video generation, matrix attention, temporal modeling, efficiency

一句话总结¶

提出帧级矩阵注意力机制——将每帧表示为矩阵而非展平 token 序列，通过 Frobenius 内积计算帧间相似度进行时间建模，实现全 3D 注意力的表达能力与局部注意力的计算效率平衡，在多个视频生成基准上达到 SOTA。

研究背景与动机¶

领域现状: 视频扩散模型在时间建模上面临表达能力与计算效率的权衡。
现有痛点: (i) 全 3D 注意力计算复杂度平方增长，限制长视频生成；(ii) 局部注意力虽高效但难以捕捉大幅度运动和全局时间结构。
核心 idea: 在帧矩阵级别而非 token 级别计算注意力，单次操作即可捕获帧间全局关系。

方法详解¶

整体框架¶

视频 latent \(\{z^1, ..., z^T\}\)（每帧 \(z^t \in \mathbb{R}^{N \times D}\)，N 个空间 token）→ 空间注意力（标准 self-attention 处理帧内）→ 帧级矩阵注意力（新增，处理帧间全局时序关系）→ 去噪输出

关键设计¶

帧级矩阵注意力（核心创新）:
- 做什么：在"帧"而非"token"粒度上做时序注意力
- 核心思路：将每帧表示为矩阵 \(z^t \in \mathbb{R}^{N \times D}\)，通过矩阵原生操作计算 Q/K/V，用 Frobenius 内积 \(\langle Q_i, K_j \rangle_F = \text{tr}(Q_i^T K_j)\) 作为帧间相似度度量
- 注意力权重：\(A_{ij} = \text{softmax}(\langle Q_i, K_j \rangle_F / \sqrt{d})\)
- 输出：\(O_i = \sum_j A_{ij} V_j\)（帧级加权和）
- 多头变体：将 \(N\) 和 \(D\) 维度分割为多个子矩阵，每个"头"关注不同的时空模式
- 设计动机：标准 3D 注意力将所有帧的 token 展平→\(O(T^2 N^2)\) 复杂度；矩阵注意力在帧级操作→\(O(T^2 N_{qk} + TN^2)\)，当 \(N_{qk} \ll N\) 时接近局部注意力的代价
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练
两种架构变体:
- FrameDiT-G（Global）: 用矩阵注意力替代原有的局部时间注意力块
- FrameDiT-H（Hybrid）: 在保留局部时间注意力的同时并行添加矩阵注意力分支，门控融合两者输出
- 选择依据：G 变体更高效（参数更少），H 变体在长视频上更优（兼顾局部细节+全局结构）
与预训练模型的兼容性:
- 矩阵注意力模块初始化为零（初始时不改变原模型输出）
- 仅微调新增模块，冻结预训练扩散 backbone
- 参数增量仅 ~8%

复杂度分析¶

Full 3D attention: \(O(T^2 N^2)\)——帧数和 token 数的平方增长
局部时间 attention: \(O(TN^2 + TwN)\)（w=窗口大小）——无全局时序
FrameDiT-G: \(O(TN^2 + T^2 N_{qk})\)——帧间全局但比 Full 3D 低很多

实验关键数据¶

基准	FrameDiT	最佳基线
Taichi-HD FVD	66.15	68.0 (Full 3D)
Sky-Timelapse FVD	39.5	42.7 (Latte)
VBench 质量分	81.69	79.72

关键发现¶

矩阵注意力以极小计算代价近似全 3D 注意力效果
混合架构（H）在长视频生成中更优
运动更流畅自然（定性评估）

亮点与洞察¶

帧级矩阵注意力 灵感优美——在正确的抽象层级做注意力，而非暴力展平
与预训练模型兼容，仅需微调新增模块
长视频生成中优势更明显
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

矩阵表示可能丢失微细 token 级信息
行权重矩阵超参缺乏理论指导
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐⭐ 矩阵级注意力设计独到
实验充分度: ⭐⭐⭐⭐⭐ 多基准 + VBench 评估
写作质量: ⭐⭐⭐⭐⭐ 复杂度分析透彻
价值: ⭐⭐⭐⭐⭐ 对高效视频生成有重要贡献