Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout¶

会议: CVPR 2026 arXiv: 2511.20649 代码: Project Page 领域: 视频生成 / 扩散模型 关键词: 自回归视频生成, 位置编码, 无限长视频, 动作控制, 推理时方法

一句话总结¶

提出 ∞-RoPE，一个训练免调的推理时框架，通过 Block-Relativistic RoPE、KV Flush 和 RoPE Cut 三个组件，将仅在5秒视频上训练的自回归视频扩散模型扩展为支持无限时长生成、精细动作控制和电影级场景切换的系统。

研究背景与动机¶

当前自回归视频扩散模型面临三大核心瓶颈：

有限时间范围：3D-RoPE 位置编码将生成限制在固定的 1024 帧内，超出后注意力质量急剧退化
动作响应迟钝：在长序列 rollout 中，prompt 变更无法立即生效，KV cache 中的旧语义持续影响生成
缺乏场景跳转能力：无法在单一生成流中实现电影式的不连续场景切换

关键洞察：在 Self-Forcing 范式下仅训练5秒片段的模型，实际上已经具备高动态的无限时长生成能力——瓶颈不在模型容量，而在位置编码的绝对索引机制。作者提出通过相对性的位置编码重参数化和 KV cache 管理来突破，无需任何额外训练。

方法详解¶

整体框架¶

∞-RoPE 基于 Self-Forcing 蒸馏得到的 Wan2.1-T2V-1.3B 模型（4步因果生成器），在推理时引入三个互联组件： - Block-Relativistic RoPE：相对性时间位置编码，突破固定帧数限制 - KV Flush：KV cache 重置机制，实现即时 prompt 响应 - RoPE Cut：时间坐标不连续跳转，实现多镜头场景切换

关键设计¶

Block-Relativistic RoPE（核心）

自回归生成以3帧为一个 block 推进：$\mathbf{B}_f = \{f-2, f-1, f\}$。传统绝对 RoPE 中 $i \gg f_{\text{limit}}$ 时进入未见过的位置区域导致失效。Block-Relativistic RoPE 将时间坐标定义为移动的局部参考系：

$$\tilde{\mathbf{B}}_i = \begin{cases} \mathbf{B}_i, & \text{if } i \leq f_0 \\ \mathbf{B}_{f_0} = \{f_0-2, f_0-1, f_0\}, & \text{otherwise} \end{cases}$$

当新 block 生成时，其 RoPE 索引始终被旋转到模型最大帧范围 $f_{\text{limit}}$ 内，而更早的 block 的时间相位被反向旋转以保持相对时间几何不变。设计动机：类似认知神经科学中的"语义化"（semanticization），远期记忆丧失精确时间标记但保留语义信息——最早缓存帧的时间坐标坍缩为共享最小索引 $\mathbf{B}_{\bar{1}} = \{1,1,1\}$。

KV Flush（动作控制）

当 prompt 变更时，清空所有 KV cache，仅保留两个锚点：全局 sink 帧（稳定注意力归一化）和最后生成帧（保持局部时间连续性）。新动作直接在这两个最小锚点上条件化生成，实现零延迟的 prompt 响应。相比 no-cache（突兀变化）、full-cache（语义滞后）、KV re-cache（高延迟），KV Flush 在效率和可控性上均优。

RoPE Cut（场景切换）

通过在时间 RoPE 坐标中引入受控的不连续跳转实现电影级多镜头切换。对当前 block $\mathbf{B}_f = \{f-2, f-1, f\}$，重新映射为：

$$\mathbf{B}_{f \to f+\Delta} = \{f-2, f+\Delta-1, f+\Delta\}$$

跳转后的帧被视为"过去上下文"，生成从新的原始时间位置重新开始。由于相对性公式中不存在绝对位置，坐标系随每次 cut 自行偏移，即使大跨度时间/语义跳转后仍能保持身份一致性。

损失函数 / 训练策略¶

∞-RoPE 是纯推理时方法，不涉及额外训练。底层 Self-Forcing 模型基于 Rectified Flow 公式训练：$\mathbf{x}_t = (1-t)\mathbf{x}_0 + t\boldsymbol{\epsilon}$，通过神经速度场 $v_\theta$ 参数化的 ODE 求解逆过程。实验固定 KV cache 大小为6，onset index $f_0=21$，CFG scale 3.0，timestep shift 5.0。

实验关键数据¶

主实验¶

VBench 评测，5秒和60秒视频生成（表格为60秒数据）：

模型	Background Consistency	Dynamic Degree	Subject Consistency	Overall
NOVA	0.8806	0.12	0.7750	0.6901
SkyReels-V2	0.8995	0.44	0.8499	0.7768
CausVid	0.8985	0.52	0.8675	0.7940
Self-Forcing	0.8784	0.32	0.8360	0.7715
Rolling-Forcing	0.9447	0.36	0.9409	0.8146
∞-RoPE	0.9490	0.52	0.9444	0.8298

120秒和240秒超长视频（240秒数据）：

模型	Background Consistency	Dynamic Degree	Subject Consistency	Overall
Rolling-Forcing	0.9248	0.40	0.9080	0.8017
∞-RoPE	0.9361	0.64	0.9256	0.8309

消融实验¶

配置	关键指标	说明
Block-Relativistic RoPE 开启 vs 关闭	Self-Forcing 单独无法维持动态长视频	仅5秒训练模型+BRRoPE 即可生成高质量30s+
KV cache 大小扫描	Overall/Aesthetic/Dynamic 随 cache 变化	固定 cache 6 在各时长上达到最佳平衡
KV Flush 对比 no-cache/full-cache/re-cache	即时语义响应+平滑运动连续	KV Flush 在效率和可控性上全面领先

关键发现¶

∞-RoPE 在所有时长（5s/60s/120s/240s）上的 Overall 分数均为最高或并列最高
关键优势在 Subject Consistency 和 Background Consistency，在超长视频中优势更加显著
Dynamic Degree 在 240s 达到 0.64，远超其他方法（大多 0.24-0.40），说明长期生成不会退化为静止

亮点与洞察¶

认知科学启发的设计：将远期帧的时间坐标坍缩为"语义记忆"，类比人类记忆中的 semanticization 过程
注意力图的可解释性：通过 attention map 可视化清晰展示了 BRRoPE（对角带+sink列）、KV Flush（切断中间历史）、RoPE Cut（分裂为两个独立对角块）的不同结构
零训练开销：作为纯推理时方法，可即插即用于任何 Self-Forcing 变体

局限性 / 可改进方向¶

依赖 Self-Forcing 蒸馏的基础模型，模型本身的生成质量上限不变
场景切换的语义连贯性依赖 sink 帧的全局信息，复杂场景下可能不足
仅在 1.3B 参数模型上验证，14B 级模型的效果未知

评分¶

新颖性: ★★★★☆ — 位置编码的相对性重参数化思路巧妙，认知科学类比有启发
技术深度: ★★★★☆ — 三个组件设计完整、互相配合，机理分析充分
实验充分度: ★★★★☆ — VBench 多时长全面评测，但缺少用户研究
实用性: ★★★★★ — 训练免调、即插即用，实际部署潜力大