Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout¶
日期: 2026-03-20
arXiv: 2511.20649
代码: 无
领域: 视频理解 / 图像生成
关键词: infinite video generation, RoPE reparameterization, KV cache, action control, scene transitions
一句话总结¶
提出 Infinity-RoPE,通过 Block-Relativistic RoPE(移动参考系时序编码)+ KV Flush(仅保留 2 token 实现即时 prompt 响应)+ RoPE Cut(受控时序断裂实现场景转换),在 Wan2.1-T2V 上实现训练无关的无限长视频生成——60 秒视频 VBench Overall 0.8298(SOTA),12× 超训练长度且动态度保持 0.52(vs baseline 0.32-0.36)。
研究背景与动机¶
-
领域现状: 自回归视频扩散模型(如 Self-Forcing on Wan2.1)在短片(5 秒)生成上表现出色,但受 3D-RoPE 固定时域(1024 帧)限制,无法生成更长视频。
-
现有痛点: (a) 超出训练长度后 RoPE 编码越界导致质量崩溃;(b) KV cache 累积造成语义滞后——prompt 变化后模型反应迟钝;(c) 无法在连续生成流中实现干净的场景切换(电影式剪辑)。
-
核心 idea: 纯推理时的 RoPE 重参数化——三种操作(Block-Relativistic/Flush/Cut)解决三个问题(长度外推/即时响应/场景转换),无需重新训练。
方法详解¶
关键设计¶
-
Block-Relativistic RoPE:
- 做什么:将时序编码从绝对坐标转为移动参考系
- 核心思路:每个新生成的 block 相对模型最大视域做旋转,旧 block 向后退——像火车上看风景,永远在"当前窗口"内
- 两种 cache 模式:Fixed cache(稳定质量)/ Unbounded cache(远帧自动"语义化",{1,2,3}→{1,1,1})
- 结果:突破 1024 帧限制,支持分钟级生成
-
KV Flush:
- 做什么:清空 KV cache 只保留 2 个 token(全局 sink + 最后帧)
- 效果:prompt 变化后即时响应,无语义滞后
- 恒定内存占用
-
RoPE Cut:
- 做什么:在时序 RoPE 中插入坐标偏移 Δ,制造受控断裂
- 效果:干净的场景切换,零时序上下文泄漏
- 实现电影式多剪辑场景
实验关键数据¶
60 秒视频生成(12× 训练长度)¶
| 方法 | Overall | Dynamic Degree | Background Consist. |
|---|---|---|---|
| Self-Forcing | 0.7715 | 0.32 | ~0.92 |
| Rolling-Forcing | 0.8146 | 0.36 | 0.9447 |
| SkyReels | 0.7768 | - | - |
| Infinity-RoPE | 0.8298 | 0.52 | 0.9490 |
5 秒视频(训练长度内)¶
| 方法 | Overall | Temporal Flicker | Subject Consist. |
|---|---|---|---|
| Self-Forcing | 0.8398 | 0.9823 | 0.9757 |
| Infinity-RoPE | 0.8377 | 0.9845 | 0.9787 |
120 秒和 240 秒生成也保持第一或第二。吞吐量 17.01 FPS,与 baseline 持平。
关键发现¶
- Dynamic Degree 0.52 vs 0.32-0.36 是最大亮点——长视频生成中运动丰富度大幅领先
- 注意力可视化确认了对角带+sink列模式在超长视域中保持完好——机制完整性
- KV Flush 实现了流畅的 prompt 过渡:站立→跳跃→坐下→唱歌
- 训练无关:直接适用于现有 Self-Forcing 模型
亮点与洞察¶
- 训练无关是最大价值:纯推理时 RoPE 重参数化,任何基于 RoPE 的视频扩散模型都可直接使用
- 移动参考系的物理类比非常直观:把"绝对时间坐标"变成"相对运动坐标",自然解决了长度外推
- 三个操作三个问题的对称设计很优雅——Block-Relativistic(长度)/Flush(响应)/Cut(场景)
局限性 / 可改进方向¶
- 依赖 Self-Forcing 蒸馏模型的基础质量——base model 弱则无法弥补
- Unbounded cache 的"语义化"可能导致远距离视觉细节丢失
- RoPE Cut 的断裂点位置和偏移量 Δ 需要手动设定
- 仅在 Wan2.1-1.3B 上验证,更大模型的效果待测
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 训练无关的 RoPE 重参数化实现无限视频生成,思路极其优雅
- 实验充分度: ⭐⭐⭐⭐ 5s/60s/120s/240s 全面测试 + 注意力可视化
- 价值: ⭐⭐⭐⭐⭐ 直接可用于现有模型的即插即用方案,工程价值极高