Training-Free Efficient Video Generation via Dynamic Token Carving¶

会议: NeurIPS 2025
arXiv: 2505.16864
代码: https://github.com/dvlab-research/Jenga
领域: 扩散模型 / 视频生成加速
关键词: 免训练加速, 稀疏注意力, 3D空间填充曲线, 渐进分辨率, 视频扩散Transformer

一句话总结¶

本文提出 Jenga，一种免训练的视频 DiT 推理加速方案，通过动态块注意力裁剪（基于 3D 空间填充曲线重排 token 后进行稀疏 KV block 选择）和渐进分辨率策略（从低分辨率逐步提升）正交结合，在 HunyuanVideo 上实现 8.83 倍加速且 VBench 仅下降 0.01%。

研究背景与动机¶

领域现状：视频扩散 Transformer（DiT）如 HunyuanVideo、Wan2.1 等已能生成高质量视频，但推理极其缓慢——HunyuanVideo 在单张 H800 上生成 5 秒 720P 视频需约 27 分钟，严重制约实际应用。

现有痛点：推理瓶颈源自两个正交因素：(1) 自注意力的 \(O(N^2)\) 复杂度——720P视频约 115K token，注意力占总计算 77.8%；(2) 扩散多步采样——50步去噪引入 50 倍计算开销。现有加速方案要么只解决其一（如 STA/CLEAR 做稀疏注意力但仅 1.5-2 倍加速，TeaCache 做步跳过但不减单步计算），要么需要额外训练（步蒸馏损失质量且训练昂贵）。

核心矛盾：现有稀疏注意力方法使用固定的空间-时间局部模式，忽略了不同输入、不同层、不同 head 的注意力分布差异，导致加速不够激进。同时，直接减少 token 数量（降分辨率）和减少 KV 交互（稀疏注意力）是两个独立的加速维度，应该联合利用。

本文目标：设计一个免训练、即插即用的推理 pipeline，同时大幅减少每步的 token 交互数量和总步数，在保持生成质量的前提下实现 5-10 倍加速。

切入角度：两个关键洞察：(1) 扩散去噪从低频到高频——早期步骤不需要高分辨率 latent；(2) 后期步骤不需要密集全注意力——视频 latent 存在大量冗余，极端稀疏（仅 1% KV blocks）也能保留细节。

核心 idea：像真实的积木游戏（Jenga）一样，在保持结构稳定的前提下最大化地移除冗余块——ProRes 减少 token 总量，AttenCarve 减少 token 交互，二者正交组合实现倍增加速。

方法详解¶

整体框架¶

Jenga 将原始 \(T\) 步去噪过程分为 \(S\) 个阶段。第一阶段从低分辨率开始生成内容结构，后续阶段逐步提升分辨率细化细节。在每个阶段中，使用 3D 空间填充曲线将视频 latent 重排为局部相关的 blocks，然后通过动态 top-K 选择仅计算最重要的 KV block 对，跳过冗余注意力计算。整个流程无需训练，可直接应用于任何视频 DiT。

关键设计¶

块注意力裁剪 (AttenCarve):
- 功能：将全注意力的 \(O(N^2)\) 降低为 \(O(N'N)\)，\(N'\) 为平均选中 token 数
- 核心思路：首先用泛化 Hilbert 曲线（3D SFC）将视频 latent token 从 \(z_{thw}\) 重排为 \(z_{blk} = \mathcal{G}(z_{thw})\)，使 1D 相邻 token 在 3D 空间也相邻。将重排后 token 均分为 \(M\) 个 block（每个 \(m=128\) token）。构建三种 block-wise 掩码的并集：(a) Importance Mask \(\mathbf{B}_{top}\)——用 block 均值计算注意力概率图 \(\mathbf{R} = \text{softmax}(\hat{Q}\hat{K}^T/\sqrt{d_k})\)，每个 query block 保留 top-\(k\) 个 KV block，加上概率截断阈值 \(p\) 保证全局信息不丢失；(b) Condition Mask——所有文本条件相关注意力全部保留；(c) Adjacency Mask——3D 空间 26-邻域的相邻 block 保留，消除块边界伪影。
- 设计动机：与固定局部窗口（CLEAR/SVG）不同，动态 top-K 选择可以自适应不同 head 的注意力模式：浅层偏局部、深层偏语义、部分 head 全局聚合。概率截断约束专门保护这些全局 head。SFC 重排比线性分割更好保持局部性，减少所需 block 数。
渐进分辨率 (ProRes):
- 功能：减少早期去噪步骤的 token 总数，压缩 pipeline 级别计算
- 核心思路：将 \(T\) 步去噪分为 \(S\) 阶段，从低分辨率 \(R_1\) 渐进到目标分辨率 \(R_S\)。每阶段结束时，预测 clean latent \(\hat{x}_0^s\)，用 3D area interpolation 上采样到下一阶段分辨率，再加噪继续去噪：\(x_{t-1} = (1-\sigma_t) \times \mathcal{U}(\hat{x}_0^s) + \sigma_t \tilde{\epsilon}\)。引入 text-attention amplifier：在低分辨率阶段对视觉-文本注意力加偏置 \(\beta = -\rho \log(\text{numel}(R_s)/\text{numel}(R_S))\)，增强文本条件权重以防止低分辨率过度聚焦局部导致视野缩小（FOV degradation）。另外使用固定 23 步时间步跳过（与 TeaCache-fast 效果相当但无额外计算开销）。
- 设计动机：扩散去噪的 coarse-to-fine 特性——早期建立内容结构、后期精细化细节——使得低分辨率起步完全合理。Text-attention amplifier 优雅地解决了低分辨率 → 窄视野的问题，通过增强全局文本条件让模型"假装"在高分辨率下生成。

损失函数 / 训练策略¶

完全免训练（training-free），所有组件即插即用。AttenCarve 使用 Triton 实现自定义稀疏注意力 kernel。支持多 GPU 并行（基于 xDiT），8 GPU 可进一步加速 6.28 倍。

实验关键数据¶

主实验¶

方法	NFE	VBench↑	VBench-Q↑	VBench-S↑	DiT时间	加速比
HunyuanVideo 基线	50	82.74%	85.21%	72.84%	1625s	1.00×
CLEAR (r=32)	50	82.68%	86.06%	69.17%	1848s	0.89×
MInference	50	83.36%	85.41%	75.16%	815s	1.99×
SVG	50	83.11%	85.87%	72.07%	988s	1.64×
AttenCarve (仅注意力)	50	83.42%	85.31%	75.85%	748s	2.17×
Jenga-Base (1阶段)	23	83.34%	85.19%	75.92%	347s	4.68×
Jenga-Turbo (2阶段)	24	83.07%	84.47%	77.48%	225s	7.22×
Jenga-Flash (2阶段高稀疏)	24	82.73%	84.01%	77.58%	184s	8.83×

模型/设置	VBench	延迟	加速比
HunyuanVideo-I2V 基线	87.49%	1499s	1.00×
+ Jenga	87.75%	338s	4.43×
Wan2.1-1.3B 基线	83.28%	115s	1.00×
+ Jenga	82.68%	24s	4.79×
AccVideo (蒸馏模型)	83.82%	161s	1.00×
+ Jenga	83.39%	76s	2.12×
HunyuanVideo 8GPU	82.74%	225s	1.00×
+ Jenga-Flash 8GPU	82.73%	39s	5.77×

消融实验¶

配置	VBench	延迟	说明
线性 hwt 分割	82.82%	229s	有移位伪影，需更多 block
SFC 分割	83.07%	225s	更好的局部性，更少 block
无邻接掩码	81.82%	221s	块边界出现网格效应
无条件掩码	82.42%	222s	文本语义下降
2 阶段 ProRes	83.07%	225s	质量与速度最佳平衡
3 阶段 ProRes	80.53%	157s	10.35× 加速但质量有所下降
Text amplifier \(\rho\)=0.0	82.40%	-	低分辨率 FOV 退化
Text amplifier \(\rho\)=0.5	83.07%	-	最佳视野保持

关键发现¶

Jenga-Base（仅注意力裁剪+步跳过）甚至超过基线 VBench 分数（83.34% vs 82.74%），主要是语义分数大幅提升（75.92% vs 72.84%）——稀疏注意力强迫模型聚焦关键信息
动态块选择（AttenCarve）比固定模式方法（CLEAR/SVG）快 1.3-2.4 倍且质量更优
Text-attention amplifier 有效解决了低分辨率生成的视野退化问题
在蒸馏模型（AccVideo，仅 5 步）上仍能获得 2.12 倍加速，证明方法与步蒸馏正交
用户研究显示 Jenga 的感知质量与基线不可区分
Block selection 仅引入 2.8% 额外计算开销，内存增加 3.7%（71.84→74.49 GiB）

亮点与洞察¶

极其优雅的框架设计：将注意力加速和 pipeline 加速解耦为两个独立正交维度，可灵活组合。AttenCarve 加速单步，ProRes 减少步数和 token，二者相乘获得超线性加速
SFC 重排 + 动态 top-K 是对视频注意力稀疏性的深刻理解：不同层/head 有不同模式（局部、位置、语义、全局），固定模式无法兼顾，但动态选择额外开销极小
免训练是巨大优势——直接应用于 HunyuanVideo、Wan2.1、AccVideo 等多种模型，无需任何微调

局限与展望¶

ProRes 的 latent 空间 resize 偶尔产生边界伪影，尤其在静态场景或清晰边缘处。使用详细 prompt 可缓解，但根本解决需要像素域 resize（额外 ~50s 开销）
当前 SFC 分割是静态的，未利用语义信息选择 token 重要性。未来可探索可学习的 attention carving
3 阶段 ProRes 质量下降明显（80.53%），latent 对齐是难点
该方法专注于推理加速，与训练端优化（步蒸馏、架构改进）正交但未联合探索

评分¶

新颖性: ⭐⭐⭐⭐ 动态块注意力裁剪 + 渐进分辨率的正交组合设计精巧，text-attention amplifier 的 FOV 修正巧妙
实验充分度: ⭐⭐⭐⭐⭐ 4种模型适配（T2V、I2V、蒸馏模型、Wan2.1）、详细消融、用户研究、多GPU部署、16维VBench细分
写作质量: ⭐⭐⭐⭐ 结构清晰，方法直观，附录极其详尽（算法伪代码、参数表、实现细节）
价值: ⭐⭐⭐⭐⭐ 免训练 8.83 倍加速几乎无质量损失，即插即用特性使其有极高的实用价值