Relax Forcing: Relaxed KV-Memory for Consistent Long Video Generation¶
日期: 2026-03-22
arXiv: 2603.21366
代码: 项目主页
领域: 视频理解
关键词: long video generation, autoregressive diffusion, KV memory, temporal consistency, sparse conditioning
一句话总结¶
提出 Relax Forcing,用结构化稀疏 KV-Memory 替代稠密时序缓存来生成一致的长视频——将历史帧分解为 Sink(全局锚点)/History(动态选择的中程运动)/Tail(近程连续性)三个功能角色,在 60 秒视频生成上比 Deep Forcing 提升 1.24%,动态度提升 66.8%。
研究背景与动机¶
-
领域现状: 自回归视频扩散可以生成长视频(30s+),但随时间推移质量逐渐退化。Self-Forcing 训练减少了 exposure bias,但误差累积仍然存在。
-
现有痛点: (a) 稠密 KV-Memory 不可扩展——增加上下文长度不一定改善质量;(b) 历史帧的时间位置比数量更重要——不是越多越好;(c) 长视频中运动动态度容易坍缩为静态重复。
-
关键发现: 通过实验分析发现,中程历史帧(mid-range)的后半段比前半段或非常近的帧更有信息量,且稠密记忆中大量帧是冗余的。
-
核心 idea: 将时序上下文按功能分解为三类——Sink 提供全局外观锚定,Tail 提供近程运动延续,History 从中程动态选择最有信息量的帧——用 relaxation score 平衡稳定性和冗余性。
方法详解¶
整体框架¶
Chunk-wise AR 生成 → 每步重建稀疏记忆 \(\mathcal{M}_i = \mathcal{S} \cup \mathcal{H}_i \cup \mathcal{T}_i\) → Sink (~2帧) 固定为早期帧、Tail (~1帧) 为最近帧、History (~1帧) 从中程候选池动态选择 → Hybrid RoPE 编码 → 稀疏 attention 生成下一 chunk。
关键设计¶
-
三角色时序记忆分解:
- Sink(锚点): 视频最早几帧,提供全局外观/风格一致性
- Tail(尾部): 最近生成的帧,保证短程运动连续性
- History(历史): 从中程候选池动态选择,传递运动结构和主题演变
- 每种角色只需 1-2 帧,总记忆远小于稠密方式
-
Relaxation Score 动态选帧:
- \(r(h) = S(h) - \lambda R(h)\)
- \(S(h)\): 与 Sink 原型的相似度(稳定性分)——越像 Sink 越能维持一致性
- \(R(h)\): 与 Tail 原型的相似度(冗余分)——越像 Tail 说明信息冗余
- 候选池限制在中程后半段(实验发现后半段更有信息量)
- 取 Top-K 作为 History 帧
-
Hybrid RoPE 编码:
- Tail 使用绝对时序索引(保留真实时间位置)
- Sink 和 History 使用相对索引(锚定在 Tail 之前)
- 避免远距离帧被"压缩"到近程上下文窗口中
实验关键数据¶
主实验(VBench-Long)¶
| 方法 | 30s Overall | 60s Overall | Dynamic Degree |
|---|---|---|---|
| Self Forcing | 79.1% | — | 36.62 |
| Deep Forcing | 79.94% | 79.64% | ~40 |
| Relax Forcing | 80.87% | 80.88% | 65.67 |
消融实验¶
| 配置 | Overall | Dynamic | Subject Consistency |
|---|---|---|---|
| Sink only | 良好 | 低(运动受限) | 高 |
| History only | — | 高 | 低(无锚点漂移) |
| Tail only | — | — | 短程好/长程差 |
| Sink + History + Tail | 最优 | 最优 | 平衡 |
关键发现¶
- 动态度 (Dynamic Degree) 提升 66.8% 是最显著的改进——从 36.62 到 65.67
- 60 秒生成比 30 秒更鲁棒(baseline 退化但 Relax Forcing 保持)
- 时序位置比记忆总量更重要——少量精选帧 > 大量稠密帧
亮点与洞察¶
- "质量 > 数量"的记忆策略: 首次系统分析长视频 AR 扩散中时序记忆的功能角色,证明稀疏精选优于稠密
- 三角色分解直觉清晰: Sink/History/Tail 的功能划分与人类记忆的"schema/episodic/working memory"类比
- Relaxation Score 设计精巧: 平衡稳定性和冗余性,自然地选出"最有信息量"的历史帧
局限性 / 可改进方向¶
- 超参数(Sink/History/Tail 数量、\(\lambda\) 平衡系数)需要手动调节
- 仅在 Self-Forcing 框架上验证,对其他 AR 方法的适用性未知
- 未深入分析"为什么中程后半段比前半段更有信息量"的原因
- 只在 VBench-Long 上评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 时序记忆功能分解的视角新颖
- 实验充分度: ⭐⭐⭐⭐ 多时长、细粒度消融
- 价值: ⭐⭐⭐⭐ 解决长视频生成的关键难题