Long Context Tuning for Video Generation¶

会议: ICCV 2025
arXiv: 2503.10589
代码: 无（项目页面可用）
领域: image_generation
关键词: 场景级视频生成, 多镜头一致性, 长上下文微调, 异步时间步, 因果注意力

一句话总结¶

本文提出Long Context Tuning（LCT），将预训练单镜头视频扩散模型的上下文窗口扩展到场景级别，通过交错3D位置嵌入和异步噪声策略实现跨镜头视觉/时序一致性，无需额外参数即支持联合和自回归多镜头生成，并展现出组合生成等涌现能力。

研究背景与动机¶

领域现状: 基于DiT的视频生成模型（SoRA, Kling, HunyuanVideo等）已能合成持续一分钟的高质量单镜头视频。但真实叙事视频由多个镜头组成，需要跨镜头的一致性。
现有痛点: 现有场景级生成方案分为两类：(1) 外观条件生成（VideoStudio等），依赖预定义条件和特定数据集，难以维持光线色调等抽象元素；(2) 关键帧生成+I2V（StoryDiffusion等），各镜头独立合成无法保证时序一致性，稀疏关键帧限制条件化效果。
核心矛盾: 场景级一致性要求角色身份、背景、光线、色调等视觉一致性，以及动作、镜头运动等时序一致性。两类现有方案在一致性维度上各有缺陷。
本文目标: 如何从数据中直接学习跨镜头一致性，而不依赖预定义条件或辅助网络？
切入角度: 扩展预训练单镜头模型的上下文窗口，让全注意力机制覆盖场景内所有镜头的所有token，直接从场景级视频数据中学习跨镜头关联。
核心 idea: 通过交错3D RoPE位置嵌入区分镜头、异步时间步统一条件和扩散样本、上下文因果注意力支持高效自回归。

方法详解¶

整体框架¶

基于3B参数的MMDiT视频扩散模型，采用Rectified Flow训练。上下文窗口最大9个镜头。数据包含全局提示（角色/环境/故事）和逐镜头提示。同时在单镜头和场景级数据上联合训练以保留预训练能力。

关键设计¶

交错3D位置嵌入（Interleaved 3D RoPE）:
- 功能: 区分不同镜头的token，保持镜头内部文本-视频对齐
- 核心思路: 保持单镜头内文本token在视频token前的相对位置关系（沿空间对角线），多镜头时将各镜头的文本-视频组逐个追加，形成交错的"[text]-[video]-[text]-[video]-..."序列。全局提示添加虚拟视频token，作为普通文本-视频对处理。
- 设计动机: 保持相对位置让每个镜头继承预训练的文本-视觉对齐能力；不同绝对位置区分token和对应镜头的关系。概念上类似M-RoPE（Qwen2-VL），但首次在扩散模型中使用。
异步时间步策略（Asynchronous Timestep）:
- 功能: 统一视觉条件输入和扩散样本，为各镜头独立采样噪声水平
- 核心思路: 训练时为每个镜头独立从logit-normal分布采样扩散时间步，而非对所有镜头使用统一时间步。当某镜头噪声较低时，自然成为外观信息源引导更嘈杂镜头的去噪。推理时可同步所有时间步做联合生成，或设部分镜头为低噪声作为视觉条件。
- 设计动机: 不需要辅助网络做视觉条件化，一个模型同时支持联合生成、视觉条件生成和自回归生成三种模式，设计极其简洁。
上下文因果注意力微调:
- 功能: 将双向注意力转换为高效的因果注意力，支持KV-cache自回归生成
- 核心思路: 在LCT双向模型基础上微调：镜头内保持双向注意力，但token只attend前面所有镜头的上下文（因果掩码）。推理时历史镜头的K/V特征被缓存，避免重复计算。仅需9K迭代微调。
- 设计动机: 自回归生成中信息流固有地是方向性的——干净历史样本不需要后续嘈杂样本的信息，因此双向注意力是冗余的。因果注意力+KV-cache显著减少计算开销。

损失函数 / 训练策略¶

Rectified Flow损失: \(\mathcal{L} = \mathbb{E}_{t,z_0,\epsilon}\|v_\Theta(z_t, t, c_{text}) - (\epsilon - z_0)\|_2^2\)。每个镜头独立计算损失后平均。在128张H800上训练135K迭代（LCT阶段），因果注意力微调9K迭代。训练分辨率480×480面积。

实验关键数据¶

主实验¶

方法	Aesthetic↑	Quality↑	Consistency(avg.)↑	Text↑	用户排名(AHR)↑
VideoStudio	61.68	73.13	95.25	28.00	2.14
StoryDiffusion+Kling	60.40	74.04	96.57	27.33	2.50
IC-LoRA+Kling	57.88	69.07	96.27	27.90	1.57
LCT (本文)	60.79	67.44	95.65	30.14	3.79

用户研究中LCT以平均排名3.79显著领先（满分4分）。

消融实验¶

配置	效果	说明
双向注意力	联合+条件生成	全能但计算开销大
因果注意力	高效自回归	KV-cache加速
无交错RoPE	一致性下降	无法区分镜头归属
同步时间步	仅联合生成	失去条件化能力

关键发现¶

文本对齐分数（30.14）显著超越所有基线，说明LCT的跨镜头语义理解能力更强
涌现能力：组合生成（角色+环境图→视频）、交互式镜头扩展，模型从未显式训练这些任务
"重现"问题：基线方法在角色间隔多镜头后重新出现时一致性崩塌，LCT通过历史池策略避免
基线方法构图多样性差，LCT能生成远景/中景/近景丰富组合

亮点与洞察¶

极其简洁优雅的设计：无额外参数、无辅助网络，仅通过位置嵌入+时间步策略+注意力模式实现多模式生成
异步时间步是核心创新：一个机制统一了联合生成/条件生成/自回归生成三种推理模式
涌现能力令人印象深刻：组合生成（从未训练过）+ 交互式扩展展示了场景级理解的泛化性
人类选择式生成策略：不依赖严格的自回归，而是从历史池中按相关性选取条件镜头

局限与展望¶

训练分辨率480×480相对较低
上下文窗口限制9镜头，更长叙事可能需要分段处理
Video Quality和Aesthetic指标略低于某些基线，可能因训练数据差异
因果注意力微调仅9K迭代，完整训练可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ 异步时间步策略极其优雅地统一了多种生成范式
实验充分度: ⭐⭐⭐⭐ 定性结果出色，自动指标和用户研究全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，用Titanic例子生动阐述场景概念
价值: ⭐⭐⭐⭐⭐ 从单镜头到场景级生成的范式转变，对视频内容创作意义重大