VideoCoF: Unified Video Editing with Temporal Reasoner¶

会议: CVPR 2026
arXiv: 2512.07469
代码: https://github.com/knightyxp/VideoCoF
领域: 扩散模型 / 视频编辑
关键词: 视频编辑, Chain-of-Frames, 视频扩散模型, 推理帧, 长度外推

一句话总结¶

提出 VideoCoF，一种受 Chain-of-Thought 启发的"看→推理→编辑"视频编辑框架，通过让视频扩散模型先预测编辑区域的推理 token（灰度高亮 latent），再生成目标视频 token，在无需用户提供 mask 的前提下实现精确的指令-区域对齐，仅用 50K 视频对训练即达到 SOTA 性能，且支持 16 倍训练长度的视频外推。

研究背景与动机¶

领域现状：当前视频编辑方法主要分两类——专家模型（adapter+外部 mask，精确但依赖额外输入且任务特定）和统一时序上下文学习模型（将源视频 token 与噪声编辑 token 沿时间轴拼接，无需 mask 但缺乏显式空间线索）。
现有痛点：统一模型因缺乏显式空间引导而存在指令-区域映射弱的问题，在多实例识别或空间推理场景中精度差。专家模型虽精确，但需要用户提供 mask 或按任务单独训练，无法统一处理多种编辑任务。
核心矛盾：精确性和统一性之间的权衡——能否同时保持专家模型的定位精度和统一模型的免 mask 便利性？
本文目标（1）如何在无 mask 输入下实现精确的编辑区域定位；（2）如何在统一框架下处理多实例编辑任务；（3）如何让模型在推理时推广到超出训练长度的视频。
切入角度：类比 LLM 中 Chain-of-Thought 的多步推理思想——让视频生成模型也进行"视觉链式推理"，先预测编辑区域再执行编辑。观察到视频扩散模型本身具有推理能力（已有工作证明 VDM 能解视觉谜题），可以通过显式建模推理 token 来激发这种能力。
核心 idea：通过在源视频和编辑视频之间插入"推理帧"（灰度高亮的编辑区域 latent），强制扩散模型先"看再想再做"，实现免 mask 精确视频编辑。

方法详解¶

整体框架¶

VideoCoF 基于 VideoDiT（如 WAN-14B）构建统一视频编辑框架。输入为源视频、文本编辑指令；输出为编辑后的视频。中间过程分三阶段：首先将源视频编码为 latent 作为"看"的依据，然后模型预测推理 latent（标注编辑区域的灰度高亮帧）作为"推理"步骤，最后基于推理结果生成编辑后的视频 latent。三组 latent 沿时间维度拼接为统一序列 \(\mathbf{z}_{full}\)，由 VideoDiT 通过自注意力（上下文学习）和交叉注意力（语言控制）统一处理。训练时仅对推理帧和目标帧施加噪声并监督速度场预测。

关键设计¶

Chain of Frames (CoF) 推理机制:
- 功能：在无 mask 输入下精确定位编辑区域
- 核心思路：给定源视频-推理帧-目标视频三元组 \(\{\mathbf{s}, \mathbf{r}, \mathbf{e}\}\)，分别编码为 latent \(z_s, z_r, z_e\)，沿时间维度拼接。训练时源视频 latent 保持干净（timestep=0），推理帧和目标帧共同加噪并作为去噪目标。推理帧的 ground truth 是灰度半透明高亮标注编辑区域的帧。模型被迫先学会"指令→编辑区域"的映射关系，再执行编辑。这种渐进式推理格式（progressive gray mask：透明度从 0% 渐变到 75%）效果最佳，因为它提供了从源视频到编辑视频的平滑过渡。
- 设计动机：之前的时序上下文学习方法（ICVE、UNIC 等）直接将源和噪声目标拼接，没有显式约束指令-区域映射，导致编辑精度差。CoF 通过强制中间推理步骤，让模型主动学习编辑指令与目标区域的关系。
RoPE 对齐策略（长度外推）:
- 功能：支持推理时视频长度远超训练长度（最高 16 倍外推）并保持运动对齐
- 核心思路：原始 VideoDiT 使用 3D 分解 RoPE 提供时空位置编码。朴素拼接的做法是源视频 \([0, F-1]\) + 目标 \([F, 2F-1]\)，模型过拟合到固定映射无法外推。简单重复索引会导致索引碰撞（源的第 0 帧、推理帧、目标的第 0 帧共享 temporal index=0，产生视觉伪影）。最终设计：源和目标视频的时间索引均设为 \([1, F]\)，推理帧索引设为 \(0\)。这样推理 token 被隔离在独特时间位置，不与任何视频帧碰撞，同时源-目标的索引范围一致保证运动对齐，且推理时可自由扩展 \(F\) 值实现长度外推。
- 设计动机：解决两个问题——（1）朴素序列索引 \([0, 2F-1]\) 导致位置编码过拟合训练长度，无法外推；（2）索引碰撞导致推理 token 干扰第一帧编辑结果。实验证明该设计在 33 帧训练后可外推到 141 帧（4x）甚至 513 帧（16x）。
实例级数据增强管线:
- 功能：生成多实例复杂编辑的训练三元组
- 核心思路：从 Pexels 采集多样视频，用 Qwen-VL 72B 做多实例识别，Grounding-SAM2 精确分割每个实例，再分别用 Minimaxremover（删除/添加）和 VACE-14B inpainting 模式（替换/局部风格变换）生成编辑对。GPT-4o 生成创意编辑 prompt。最终用 Dover Score 和 VIE Score 过滤质量，并从 Señorita 2M 数据集蒸馏出高质量子集，总共 50K 训练样本。
- 设计动机：现有视频编辑数据集多为单实例简单操作，不支持复杂空间关系（物理左/右、多实例交互）。多实例数据对训练模型的空间推理能力至关重要。

损失函数 / 训练策略¶

训练采用 Flow Matching 目标：速度场 \(\mathbf{v} = \boldsymbol{\varepsilon} - \mathbf{z}_{full}^{(0)}\)，仅监督推理帧和目标帧的 MSE 损失 \(\mathcal{L} = \frac{1}{L+F}\sum_{i=F}^{2F+L-1}\|\mathbf{v}_i - \hat{\mathbf{v}}_i\|_2^2\)。推理时用 ODE solver 从高斯噪声演化到干净 latent，源 latent 始终保持不变。配合 DMD-LoRA 仅需 4 步推理，单 H100 约 10 秒编辑 33 帧。

实验关键数据¶

主实验¶

在 VideoCoF-Bench（200 视频，4 类编辑任务，含实例级编辑）上与 SOTA 方法对比：

方法	Instruct Follow↑	Preservation↑	Quality↑	Success Ratio↑	CLIP-T↑
ICVE (1M预训练+150K微调)	7.79	8.06	8.14	57.76%	27.49
VACE-14B	7.47	5.82	7.61	26.60%	27.02
Lucy Edit	5.24	6.50	6.37	29.64%	26.98
VideoCoF (50K)	8.97	8.20	7.77	76.36%	28.00

仅用 50K 训练数据就在所有 GPT-4o 评分指标上超越了使用 1M+ 数据的 ICVE，Success Ratio 提升 18.6%。

消融实验¶

配置	Instruct Follow	Success Ratio	CLIP-T
Naive temporal [0,2F-1] 无 CoF	8.11	72.41%	26.88
索引重复 [0,F-1] 无 CoF	8.06	65.52%	27.09
VideoCoF [1-F,0,1-F] + CoF	8.97	76.36%	28.00

推理帧格式消融：

格式	Instruct Follow	Success Ratio
黑色 mask (0%)	7.51	52.17%
红色 mask (50%)	7.81	60.33%
灰色 mask (50%)	8.15	68.45%
渐进灰色 (0-75%)	8.97	76.36%

关键发现¶

CoF 推理帧的引入带来 Instruct Follow +10.65% 和 Success Ratio +5.46% 的提升，证明显式推理步骤对编辑精度至关重要
RoPE 对齐设计使模型从 33 帧训练外推到 513 帧（16x），朴素方案在 81 帧即严重退化（模糊、运动不对齐）
推理帧格式中渐进灰色 mask 大幅优于黑色/红色，因为扩散模型对纯黑/纯白像素不敏感，灰色高亮更适合 latent 空间表示
仅 50K 数据量即超越 1M+ 数据的方法，说明数据质量和框架设计远比数据量重要

亮点与洞察¶

Chain-of-Frames 推理范式：将 CoT 从语言领域迁移到视觉生成领域的巧妙设计。视频编辑的"看→推理→编辑"过程天然符合人类编辑视频的思维模式——先确定编辑区域再执行操作。这一思路可推广到图像编辑甚至 3D 场景编辑。
RoPE 索引隔离策略：用一个简单的索引偏移（推理帧=0，视频=[1,F]）同时解决索引碰撞和长度外推两个问题，设计极为简洁优雅。可作为通用技巧用于任何需要拼接异构 token 序列的扩散模型。
数据效率：50K 数据超越 1M+ 的事实说明，结构化的学习信号（推理帧提供的编辑区域监督）比暴力数据堆量更有效。

局限与展望¶

推理帧的 ground truth 依赖 Grounding-SAM2 的分割质量，对分割失败的场景可能引入噪声
当前推理帧为静态灰度高亮，无法很好表达需要跨帧变化的编辑区域（如运动轨迹修改）
训练数据 50K 虽然效率高但多样性有限，复杂自然场景覆盖可能不足
未探索注意力可视化来验证推理帧是否真正驱动了模型的区域关注

评分¶

新颖性: ⭐⭐⭐⭐⭐ Chain-of-Frames 是将 CoT 推理迁移到视频扩散模型的首次探索，开辟了新范式
实验充分度: ⭐⭐⭐⭐ 消融全面（CoF、RoPE、推理帧格式），但主要在自建 benchmark 上评估
写作质量: ⭐⭐⭐⭐⭐ 方法阐述清晰，类比 CoT 的叙事引人入胜，图示直观
价值: ⭐⭐⭐⭐⭐ 推理帧+RoPE 对齐的设计思路可广泛迁移到其他视觉生成任务