Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance¶

日期: 2026-03-02
arXiv: 2603.02175
代码: https://github.com/showlab/Kiwi-Edit
领域: image_generation
关键词: video editing, reference-guided editing, diffusion transformer, MLLM, dataset curation

一句话总结¶

Kiwi-Edit 提出了一个可扩展的数据生成流水线来构建 477K 高质量的指令-参考图像-视频编辑四元组数据集 RefVIE，并设计了统一的 MLLM-DiT 架构通过 Query Connector 和 Latent Connector 双路径机制实现指令+参考图像引导的视频编辑，在 OpenVE-Bench 上以 3.02 的 Overall 分数超越所有开源基线。

研究背景与动机¶

当前基于指令的视频编辑方法取得了显著进展，但存在一个核心矛盾：自然语言在描述精细视觉细节（如特定纹理、物体身份、风格特征）时存在固有的模糊性。用户往往希望通过视觉示例来传达编辑意图（如"把车替换成这辆跑车"），但纯文本模型无法完成此类任务。

参考图像引导的视频编辑是自然的解决方案，但其发展受到数据稀缺的严重制约。训练此类模型需要高质量的四元组数据（源视频、编辑指令、参考图像、目标视频），而现有数据集（InsViE、Señorita、Ditto、ReCo、OpenVE）均不提供参考图像。仅有的少数探索（InstructX、Kling-Omni）依赖于闭源私有数据。

Kiwi-Edit 的核心洞察是：强大的预训练图像生成模型可以作为高保真参考图像合成器，从而实现可扩展的数据构建。

方法详解¶

整体框架¶

系统包含两个主要组件：(1) 冻结的多模态大语言模型（MLLM，Qwen2.5-VL-3B）用于语义理解；(2) 扩散 Transformer（DiT，Wan2.2-TI2V-5B）用于视频生成。MLLM 编码多模态输入（源视频、指令、参考图像）为条件信号，引导 DiT 生成编辑后的视频。

关键设计¶

1. 可扩展数据生成流水线（RefVIE 构建） - Stage 1 - 源聚合与过滤: 从 Ditto-1M、ReCo、OpenVE-3M 聚合 3.7M 样本，使用 EditScore > 6 过滤文本引导样本，EditScore > 8 过滤参考引导样本 - Stage 2 - 定位与分割: 用 Qwen3-VL-32B 定位编辑区域，SAM3 精细分割 - Stage 3 - 参考图像合成: 用 Qwen-Image-Edit 合成参考图像——背景任务移除前景后修复，局部编辑任务提取目标物体 - Stage 4 - 质量控制: MLLM 验证语义一致性，CLIP 特征去重 - 最终从 3.7M 样本中精炼出 477K 高质量四元组

2. 双连接器机制（Dual-Connector） - Query Connector: 使用可学习查询 token（图像 256、视频 512、参考任务 768 个）通过 MLP 投影，提炼编辑意图的高层语义 - Latent Connector: 提取参考图像对应的视觉 token 并通过独立 MLP 投影，注入密集视觉先验 - 两者输出拼接为统一的 Context Tokens，作为 DiT 交叉注意力的 key/value

3. 混合潜空间注入策略（Hybrid Injection） - 源视频控制（逐元素加法）: 源帧通过 VAE 编码后经零初始化 PatchEmbed 处理，以可学习的时间步依赖标量 γ(t) 调制后与噪声潜变量逐元素相加：z_t' = PatchEmbed(z_t) + γ(t) · PatchEmbed_src(VAE(x_src)) - 参考图像控制（序列拼接）: 参考图像 patch-embed 后拼接到 DiT 输入序列，扩展注意力窗口以直接"复制"纹理细节

损失函数 / 训练策略¶

采用 Flow Matching 训练目标，最小化预测速度场与真实漂移的 MSE：L_flow = E[||v_θ(z_t, t, c) - (z_1 - z_0)||²]

三阶段渐进训练课程: - Stage 1 (MLLM-DiT 对齐): 冻结 MLLM 和 DiT，仅训练 LoRA、连接器和查询 token，使用图像编辑三元组数据（GPT-Image-Edit、NHR-Edit） - Stage 2 (指令微调): 解冻 DiT 联合优化，使用大规模图像+视频编辑数据，从 480p 渐进到 720p - Stage 3 (参考引导微调): 引入 RefVIE 数据，图像:指令视频:参考视频 = 2:1:1 混合训练

实验关键数据¶

主实验¶

OpenVE-Bench 指令编辑结果 (Gemini-2.5-Pro 评估):

方法	参数	Overall	Global Style	Background	Local Change	Local Remove	Local Add
Runway Aleph (闭源)	-	3.49	3.72	2.62	4.18	4.16	2.78
OpenVE-Edit	5B	2.50	3.16	2.36	2.98	1.85	2.15
DITTO	14B	2.13	4.01	1.68	2.03	1.53	1.41
Kiwi-Edit (Stage3)	5B	3.02	3.64	3.84	2.63	2.36	-

RefVIE-Bench 参考引导编辑结果:

模型	Identity Consist.	Temporal Consist.	Physical Consist.	Reference Sim.	Matting Quality	Video Quality	Overall
Runway Aleph	3.79	3.65	3.58	3.33	2.81	2.58	3.29
Kling-O1	4.75	4.66	4.60	3.95	3.21	2.75	3.99
Kiwi-Edit	3.98	3.40	3.34	3.72	2.90	2.51	3.31

消融实验¶

Channel Concat vs Add: 通道拼接（2.08 Remove）远差于逐元素加法（2.63），共享 PatchEmbed 降至 1.01
时间步缩放: 移除 γ(t) 后 Remove 从 2.63 降至 2.58
对齐阶段: 跳过 Stage 1 导致灾难性性能下降（1.47）
图像协训练: 去掉图像编辑数据后 Remove 从 2.84 降至 2.58
参考条件: 仅用查询 3.20，加入 Latent Connector 提升至 3.30

关键发现¶

Background Change 得分 3.84 超越闭源 Runway Aleph 的 2.62
5B 参数量的开源模型首次在参考引导编辑上接近商业闭源模型
Stage 3 提升局部编辑但降低背景性能，归因于数据集偏向局部变化

亮点与洞察¶

Data-centric 方法论: 核心贡献不仅是模型而是数据——证明从已有编辑对中合成参考图像是可行的大规模方案
双连接器设计精妙: Query 捕获高层编辑意图，Latent 捕获精细视觉细节，两者互补
混合注入策略合理: 源视频需要精细的结构保持（逐元素加法+时间步缩放），参考图像需要全局注意力（序列拼接），不同条件采用不同注入方式
渐进训练稳定: 三阶段从对齐→指令→参考，避免了多条件联合训练的优化困难

局限性 / 可改进方向¶

参考图像合成依赖现有图像编辑模型的质量，错误会级联传播
数据集重度偏向局部编辑，全局风格迁移等任务覆盖不足
Identity Consistency (3.98) 和 Kling-O1 (4.75) 的差距仍然显著，特别是物理一致性
最大采样帧数限制为 81 帧，对长视频编辑的泛化性未知
与 Kling-O1 等闭源模型的差距可能来自模型规模和训练数据量

评分¶

新颖性: ⭐⭐⭐⭐ 数据生成流水线有创意，但架构层面的创新有限
实验充分度: ⭐⭐⭐⭐ 覆盖指令编辑和参考引导编辑，消融实验详细
写作质量: ⭐⭐⭐⭐ 结构清晰，流水线描述详尽
价值: ⭐⭐⭐⭐⭐ 首个大规模开源参考引导视频编辑数据集+模型，对社区价值极高