跳转至

Training-Free Efficient Video Generation via Dynamic Token Carving

会议: NeurIPS 2025
arXiv: 2505.16864
代码: https://github.com/dvlab-research/Jenga
领域: 扩散模型 / 视频生成加速
关键词: 免训练加速, 稀疏注意力, 3D空间填充曲线, 渐进分辨率, 视频扩散Transformer

一句话总结

本文提出 Jenga,一种免训练的视频 DiT 推理加速方案,通过动态块注意力裁剪(基于 3D 空间填充曲线重排 token 后进行稀疏 KV block 选择)和渐进分辨率策略(从低分辨率逐步提升)正交结合,在 HunyuanVideo 上实现 8.83 倍加速且 VBench 仅下降 0.01%。

研究背景与动机

领域现状:视频扩散 Transformer(DiT)如 HunyuanVideo、Wan2.1 等已能生成高质量视频,但推理极其缓慢——HunyuanVideo 在单张 H800 上生成 5 秒 720P 视频需约 27 分钟,严重制约实际应用。

现有痛点:推理瓶颈源自两个正交因素:(1) 自注意力的 \(O(N^2)\) 复杂度——720P视频约 115K token,注意力占总计算 77.8%;(2) 扩散多步采样——50步去噪引入 50 倍计算开销。现有加速方案要么只解决其一(如 STA/CLEAR 做稀疏注意力但仅 1.5-2 倍加速,TeaCache 做步跳过但不减单步计算),要么需要额外训练(步蒸馏损失质量且训练昂贵)。

核心矛盾:现有稀疏注意力方法使用固定的空间-时间局部模式,忽略了不同输入、不同层、不同 head 的注意力分布差异,导致加速不够激进。同时,直接减少 token 数量(降分辨率)和减少 KV 交互(稀疏注意力)是两个独立的加速维度,应该联合利用。

本文目标:设计一个免训练、即插即用的推理 pipeline,同时大幅减少每步的 token 交互数量和总步数,在保持生成质量的前提下实现 5-10 倍加速。

切入角度:两个关键洞察:(1) 扩散去噪从低频到高频——早期步骤不需要高分辨率 latent;(2) 后期步骤不需要密集全注意力——视频 latent 存在大量冗余,极端稀疏(仅 1% KV blocks)也能保留细节。

核心 idea:像真实的积木游戏(Jenga)一样,在保持结构稳定的前提下最大化地移除冗余块——ProRes 减少 token 总量,AttenCarve 减少 token 交互,二者正交组合实现倍增加速。

方法详解

整体框架

Jenga 将原始 \(T\) 步去噪过程分为 \(S\) 个阶段。第一阶段从低分辨率开始生成内容结构,后续阶段逐步提升分辨率细化细节。在每个阶段中,使用 3D 空间填充曲线将视频 latent 重排为局部相关的 blocks,然后通过动态 top-K 选择仅计算最重要的 KV block 对,跳过冗余注意力计算。整个流程无需训练,可直接应用于任何视频 DiT。

关键设计

  1. 块注意力裁剪 (AttenCarve):

    • 功能:将全注意力的 \(O(N^2)\) 降低为 \(O(N'N)\)\(N'\) 为平均选中 token 数
    • 核心思路:首先用泛化 Hilbert 曲线(3D SFC)将视频 latent token 从 \(z_{thw}\) 重排为 \(z_{blk} = \mathcal{G}(z_{thw})\),使 1D 相邻 token 在 3D 空间也相邻。将重排后 token 均分为 \(M\) 个 block(每个 \(m=128\) token)。构建三种 block-wise 掩码的并集:(a) Importance Mask \(\mathbf{B}_{top}\)——用 block 均值计算注意力概率图 \(\mathbf{R} = \text{softmax}(\hat{Q}\hat{K}^T/\sqrt{d_k})\),每个 query block 保留 top-\(k\) 个 KV block,加上概率截断阈值 \(p\) 保证全局信息不丢失;(b) Condition Mask——所有文本条件相关注意力全部保留;(c) Adjacency Mask——3D 空间 26-邻域的相邻 block 保留,消除块边界伪影。
    • 设计动机:与固定局部窗口(CLEAR/SVG)不同,动态 top-K 选择可以自适应不同 head 的注意力模式:浅层偏局部、深层偏语义、部分 head 全局聚合。概率截断约束专门保护这些全局 head。SFC 重排比线性分割更好保持局部性,减少所需 block 数。
  2. 渐进分辨率 (ProRes):

    • 功能:减少早期去噪步骤的 token 总数,压缩 pipeline 级别计算
    • 核心思路:将 \(T\) 步去噪分为 \(S\) 阶段,从低分辨率 \(R_1\) 渐进到目标分辨率 \(R_S\)。每阶段结束时,预测 clean latent \(\hat{x}_0^s\),用 3D area interpolation 上采样到下一阶段分辨率,再加噪继续去噪:\(x_{t-1} = (1-\sigma_t) \times \mathcal{U}(\hat{x}_0^s) + \sigma_t \tilde{\epsilon}\)。引入 text-attention amplifier:在低分辨率阶段对视觉-文本注意力加偏置 \(\beta = -\rho \log(\text{numel}(R_s)/\text{numel}(R_S))\),增强文本条件权重以防止低分辨率过度聚焦局部导致视野缩小(FOV degradation)。另外使用固定 23 步时间步跳过(与 TeaCache-fast 效果相当但无额外计算开销)。
    • 设计动机:扩散去噪的 coarse-to-fine 特性——早期建立内容结构、后期精细化细节——使得低分辨率起步完全合理。Text-attention amplifier 优雅地解决了低分辨率 → 窄视野的问题,通过增强全局文本条件让模型"假装"在高分辨率下生成。

损失函数 / 训练策略

完全免训练(training-free),所有组件即插即用。AttenCarve 使用 Triton 实现自定义稀疏注意力 kernel。支持多 GPU 并行(基于 xDiT),8 GPU 可进一步加速 6.28 倍。

实验关键数据

主实验

方法 NFE VBench↑ VBench-Q↑ VBench-S↑ DiT时间 加速比
HunyuanVideo 基线 50 82.74% 85.21% 72.84% 1625s 1.00×
CLEAR (r=32) 50 82.68% 86.06% 69.17% 1848s 0.89×
MInference 50 83.36% 85.41% 75.16% 815s 1.99×
SVG 50 83.11% 85.87% 72.07% 988s 1.64×
AttenCarve (仅注意力) 50 83.42% 85.31% 75.85% 748s 2.17×
Jenga-Base (1阶段) 23 83.34% 85.19% 75.92% 347s 4.68×
Jenga-Turbo (2阶段) 24 83.07% 84.47% 77.48% 225s 7.22×
Jenga-Flash (2阶段高稀疏) 24 82.73% 84.01% 77.58% 184s 8.83×
模型/设置 VBench 延迟 加速比
HunyuanVideo-I2V 基线 87.49% 1499s 1.00×
+ Jenga 87.75% 338s 4.43×
Wan2.1-1.3B 基线 83.28% 115s 1.00×
+ Jenga 82.68% 24s 4.79×
AccVideo (蒸馏模型) 83.82% 161s 1.00×
+ Jenga 83.39% 76s 2.12×
HunyuanVideo 8GPU 82.74% 225s 1.00×
+ Jenga-Flash 8GPU 82.73% 39s 5.77×

消融实验

配置 VBench 延迟 说明
线性 hwt 分割 82.82% 229s 有移位伪影,需更多 block
SFC 分割 83.07% 225s 更好的局部性,更少 block
无邻接掩码 81.82% 221s 块边界出现网格效应
无条件掩码 82.42% 222s 文本语义下降
2 阶段 ProRes 83.07% 225s 质量与速度最佳平衡
3 阶段 ProRes 80.53% 157s 10.35× 加速但质量有所下降
Text amplifier \(\rho\)=0.0 82.40% - 低分辨率 FOV 退化
Text amplifier \(\rho\)=0.5 83.07% - 最佳视野保持

关键发现

  • Jenga-Base(仅注意力裁剪+步跳过)甚至超过基线 VBench 分数(83.34% vs 82.74%),主要是语义分数大幅提升(75.92% vs 72.84%)——稀疏注意力强迫模型聚焦关键信息
  • 动态块选择(AttenCarve)比固定模式方法(CLEAR/SVG)快 1.3-2.4 倍且质量更优
  • Text-attention amplifier 有效解决了低分辨率生成的视野退化问题
  • 在蒸馏模型(AccVideo,仅 5 步)上仍能获得 2.12 倍加速,证明方法与步蒸馏正交
  • 用户研究显示 Jenga 的感知质量与基线不可区分
  • Block selection 仅引入 2.8% 额外计算开销,内存增加 3.7%(71.84→74.49 GiB)

亮点与洞察

  • 极其优雅的框架设计:将注意力加速和 pipeline 加速解耦为两个独立正交维度,可灵活组合。AttenCarve 加速单步,ProRes 减少步数和 token,二者相乘获得超线性加速
  • SFC 重排 + 动态 top-K 是对视频注意力稀疏性的深刻理解:不同层/head 有不同模式(局部、位置、语义、全局),固定模式无法兼顾,但动态选择额外开销极小
  • 免训练是巨大优势——直接应用于 HunyuanVideo、Wan2.1、AccVideo 等多种模型,无需任何微调

局限与展望

  • ProRes 的 latent 空间 resize 偶尔产生边界伪影,尤其在静态场景或清晰边缘处。使用详细 prompt 可缓解,但根本解决需要像素域 resize(额外 ~50s 开销)
  • 当前 SFC 分割是静态的,未利用语义信息选择 token 重要性。未来可探索可学习的 attention carving
  • 3 阶段 ProRes 质量下降明显(80.53%),latent 对齐是难点
  • 该方法专注于推理加速,与训练端优化(步蒸馏、架构改进)正交但未联合探索

相关工作与启发

  • vs STA/CLEAR/SVG: 这些方法使用固定的局部窗口或空间-时间稀疏模式,CLEAR 甚至比基线更慢(0.89×)。Jenga 的动态选择在 2.17 倍加速下质量更优
  • vs TeaCache: TeaCache 通过缓存特征跳步实现 2.31 倍加速,Jenga 的 ProRes 与之正交且更高效——在步级别减少 token 数。结合使用效果更好
  • vs Bottleneck Sampling: BottleneckSampling 也用变分辨率策略,但保留首阶段原始分辨率。ProRes 更激进地从低分辨率开始,配合 text-attention amplifier 维持 FOV

评分

  • 新颖性: ⭐⭐⭐⭐ 动态块注意力裁剪 + 渐进分辨率的正交组合设计精巧,text-attention amplifier 的 FOV 修正巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 4种模型适配(T2V、I2V、蒸馏模型、Wan2.1)、详细消融、用户研究、多GPU部署、16维VBench细分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法直观,附录极其详尽(算法伪代码、参数表、实现细节)
  • 价值: ⭐⭐⭐⭐⭐ 免训练 8.83 倍加速几乎无质量损失,即插即用特性使其有极高的实用价值

相关论文