LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation¶

会议: CVPR 2026
arXiv: 2510.08318
代码: 无（但基于开源Wan模型）
领域: 视频生成 / 高效推理 / 线性注意力
关键词: 视频扩散模型, 线性注意力, 后训练, 选择性替换, 分布匹配

一句话总结¶

首个data-free后训练框架LinVideo，通过选择性转移自动选择最适合替换为线性注意力的层+任意时刻分布匹配(ADM)目标函数高效恢复性能，实现Wan 1.3B/14B的1.43-1.71×加速且质量无损，叠加4步蒸馏后达15.9-20.9×加速。

背景与动机¶

视频扩散模型(Wan/CogVideoX/Sora)的推理瓶颈在于自注意力的\(O(n^2)\)复杂度——10秒视频常产生>50K tokens。注意力稀疏化虽有帮助但通常仅减少<50%计算。线性注意力可将复杂度降至\(O(n)\)，但全部替换需要昂贵的预训练（SANA-Video等方案）。核心矛盾：线性注意力表达力不足以捕捉视频的复杂时空动态，直接替换所有层并fine-tune效果差。

核心问题¶

能否通过高效的data-free后训练，选择性地将尽可能多的softmax注意力层替换为线性注意力，同时保持视频生成质量？

方法详解¶

整体框架¶

两大核心技术：(1) 选择性转移(Selective Transfer)：用可学习二值分类器自动决定每层用softmax还是linear注意力；(2) 任意时刻分布匹配(ADM)：在采样轨迹的所有时刻对齐原模型与线性化模型的样本分布，而非仅对齐最终输出。整个过程data-free——训练数据通过原模型自身采样生成。

关键设计¶

选择性转移：发现不同层的可替代性差异巨大（浅层更容易替换，但第一层等关键层不可替换）。为每层引入可学习标量\(r \in [0,1]\)，混合注意力输出：\(o_i = r \cdot \text{softmax-attn} + (1-r) \cdot \text{linear-attn}\)。约束损失\(\mathcal{L}_{con}\)控制被替换层数等于target，正则化损失\(\mathcal{L}_{reg} = \sum(1-|2r-1|^\alpha)\)迫使\(r\)趋向0/1避免舍入误差。\(\alpha\)从大到小退火——初期允许自由探索，后期强制二值化。
任意时刻分布匹配(ADM)：朴素MSE匹配导致时序抖动，少步蒸馏(DMD)仅匹配\(t=0\)分布忽略中间时刻。ADM在采样轨迹的每个时刻\(t\)最小化\(KL(q_t \| p_t)\)。关键创新：用被训练模型\(\hat{u}_\theta\)自身估计其score function \(\hat{s}_t\)（因为它本身是multi-step flow模型，score function可解析），无需额外训练score模型——这比DMD少~4.4×训练成本。Score差分的推导优雅：\(s_t - \hat{s}_t = -\frac{1-t}{t}(u_\theta - \hat{u}_\theta)\)。
Hedgehog线性注意力核：采用softmax模拟核\(\phi(q) = \text{softmax}(qW) \oplus \text{softmax}(-qW)\)，比ReLU核或Taylor展开核效果更好（VBench差距2%+），保持了softmax的尖峰权重特性和点积单调性。

损失函数 / 训练策略¶

\(\mathcal{L}_{total} = \mathcal{L}_{ADM} + \lambda(\mathcal{L}_{con} + \mathcal{L}_{reg})\)。Data-free：从原模型采样50K输入输出对。Wan 1.3B训练3K步/8×H100，14B训练3K步/32×H100。Target：1.3B替换16/30层，14B替换22/40层。

实验关键数据¶

VBench 8维度（Wan 1.3B/14B）：

方法	延迟(s)	加速	VBench评分(近似)
FA2 (baseline)	97.3 / 1931	1×	67.6 / 67.9
SVG (稀疏)	74.5 / 1203	1.31/1.61×	67.2 / 67.0
SVG2	84.9 / 1364	1.15/1.42×	67.5 / 67.3
LinVideo	68.3 / 1127	1.43/1.71×	67.6 / 67.7
LinVideo+DMD2 (4步)	6.1 / 92.6	15.9/20.9×	66.7 / 66.8

VBench-2.0总分：LinVideo(56.74) = FA2(56.74) >> SVG2(55.81)，4步版仅差3%。

CogVideoX-2B：同样无损加速1.40×（41.35→29.64s），VBench持平。

消融实验要点¶

target选择：target≤18时性能稳定下降缓慢，>18后显著下降
选择性转移 >> 手动/启发式：LinVideo自动选择的层组合大幅优于手动(相同层)+5%和启发式+7%
ADM >> MSE >> DMD：ADM 66.07 vs MSE 61.56 vs DMD 57.44（Imaging Quality）
ADM无需额外score模型：用自身估计score(66.07) ≈ 额外训练score(65.61)但节省4.4×训练时间
\(\mathcal{L}_{reg}\)必要：无正则化导致\(r\)在0.5附近浮动，舍入后性能崩塌(18.62 IQ)
Hedgehog核最优: VBench 67.61 vs Taylor 67.24 vs ReLU 65.48

亮点¶

Data-free后训练——不需要任何视频数据集，从模型自身采样，解决了数据隐私和版权问题
选择性转移将层选择变成可微优化问题——比手动/启发式搜索更优且无需人工
ADM用模型自身做score estimation是关键创新——避免了DMD需要额外模型训练的昂贵开销
15.9-20.9×的极端加速（4步蒸馏后）展示了线性注意力+蒸馏的组合威力
在CogVideoX上也验证，框架不依赖特定架构

局限性 / 可改进方向¶

目前未使用专用CUDA kernel——线性注意力的实际加速受限于generic PyTorch实现
与SLA（层内混合注意力）正交——二者可组合获得更大加速
target的选择仍需一定试错——虽然在范围内不敏感但极端值有风险
4步蒸馏后视觉质量仍有约1%下降——更好的蒸馏方法可能改善
仅测试了Wan和CogVideoX——在更多架构(HunyuanVideo/Kling)上的效果待验证

与相关工作的对比¶

vs SVG/SVG2 (注意力稀疏化)：稀疏方法仅跳过部分注意力计算(通常保留>50%),速度提升有限(1.31×)。LinVideo直接将\(O(n^2)\)变为\(O(n)\),加速更大(1.43-1.71×)且质量更好
vs LinGen/SANA-Video (预训练线性注意力)：这些方法需要完整预训练,成本高。LinVideo仅需3K步后训练,数据也不需要
vs SLA (层内混合注意力)：SLA在每层内混合softmax和linear注意力,需要特定GPU kernel(仅RTX5090)。LinVideo层间混合,用通用实现,二者正交可组合
vs DMD/DMD2 (蒸馏)：DMD需要额外score模型训练(5-10×成本)。ADM用模型自身估计score,大幅降低训练成本

启发与关联¶

LinVideo的"自动选择哪些层线性化"与MoDES的"自动选择哪些expert跳过"思路一致——都是将离散选择转化为可学习的连续优化
ADM的"不仅匹配最终分布,而是匹配全轨迹"思想可推广到其他生成模型蒸馏场景——如图像扩散模型蒸馏
与ideas/image_generation/20260316_dit_compression_understanding.md相关——该idea探索DiT压缩,LinVideo提供了线性注意力替换的具体方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ 选择性转移+ADM+data-free三个创新点均为新贡献,组合效果惊人
实验充分度: ⭐⭐⭐⭐⭐ 2个模型规模、VBench+VBench2.0、多种注意力核、全面消融、4步蒸馏组合
写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰(ADM的score difference推导),motivation→observation→method→validation链条完整
价值: ⭐⭐⭐⭐⭐ 视频生成的推理瓶颈是最大部署障碍,15-20×加速具有巨大产业价值