VEGGIE: Instructional Editing and Reasoning Video Concepts with Grounded Generation¶

会议: ICCV 2025
arXiv: 2503.14350
代码: https://veggie-gen.github.io/ (项目页)
领域: 语义分割
关键词: 视频编辑, 指令编辑, 视频概念定位, 推理分割, 多任务统一模型

一句话总结¶

VEGGIE 提出了一个端到端统一框架，将 MLLM 与视频扩散模型连接，仅用扩散损失就能在单一模型中同时完成指令式视频编辑、概念定位和推理分割等 8 种任务。

研究背景与动机¶

视频编辑方法在近年取得长足进步，但距"简单、通用的视频概念编辑器"目标仍有三个核心挑战：

非端到端：大多数方法需要中间步骤——布局/掩码/人工标注或模型生成的描述作为引导（如 VPLM 需要 mask 输入、tool-use 方法需要多步 pipeline），这增加了用户负担，破坏了无缝编辑体验

训练目标复杂：现有连接 MLLM 和 VidDM 的 pipeline 需要多种训练目标（语言损失、掩码损失等），增加了优化难度和超参数调优成本

任务覆盖不全：现有模型只擅长部分编辑任务。例如 LGVI 擅长去除但不支持风格化，VidToMe 擅长全局编辑但本地编辑差，TokenFlow 不支持添加/删除物体

这些挑战的根源有二：(1) 缺乏覆盖广泛技能的高质量多任务视频编辑训练数据；(2) 模型缺乏两个关键能力——多模态推理（从指令推断编辑意图）和语言定位（精确定位要编辑的区域）。

VEGGIE 的核心 idea：将视频定位和编辑统一为像素空间的端到端生成式任务。不需要额外的检测/分割模块，不需要中间文本 token 作为条件，仅用扩散损失就能同时学习编辑、定位和推理。关键创新是用连续可学习的 grounded task query embeddings 替代离散文本 token 作为 MLLM 到 VidDM 的桥梁，实现梯度端到端传播。

方法详解¶

整体框架¶

VEGGIE 由四个组件组成：

MLLM：接受视频帧序列 \(V = [f_1, ..., f_n]\) 和用户指令 \(I\)，生成逐帧的 grounded task tokens \(C = [c_1, ..., c_n]\)
可学习的 Grounded Task Queries：连续嵌入向量，每帧一组，作为 MLLM 的输入和输出并行处理
Alignment Network：单层 MLP，将 MLLM 输出映射到扩散模型的条件空间
Video Diffusion Model：从指令式图像编辑模型初始化，接受原始视频（拼接到噪声）和 task tokens（送入 cross-attention）生成编辑后视频

关键区别于先前方法：task query 是连续的、可微的，梯度可以从 VidDM 反传到 MLLM，实现真正的端到端训练。而 VPLM 等方法使用离散文本 token，切断了梯度流。

关键设计¶

Curriculum Learning（课程学习）两阶段训练：
- 功能：先在图像级别对齐 MLLM 和 VidDM，再在视频级别端到端微调
- Stage 1（图像-语言空间对齐）：MLLM 冻结，更新 alignment network、task queries 和扩散 UNet。使用 340 万图像编辑数据训练，让扩散模型学会理解 MLLM 生成的 task guidance
- Stage 2（视频时序增强）：全部组件解冻（包括 MLLM），2D UNet 通过 temporal attention layers 膨胀为 3D。使用 13.6 万视频编辑数据端到端微调
- 设计动机：直接在视频数据上端到端训练会导致模型崩溃（MLLM 和 VidDM 表示空间不对齐）。先用大量图像数据预对齐是必要的
统一的任务表示（Unified Task Formulation）：
- 功能：将编辑和定位/分割统一为 video-to-video 生成任务
- 核心思路：
  - 视频编辑：输出是编辑后的视频帧
  - 视频概念定位：输出是高亮目标物体的视频帧（颜色填充）
  - 推理分割：输出是分割掩码可视化的视频帧
  - 所有任务共享同一个像素空间输出格式，只需扩散损失
- 设计动机：避免为不同任务设计不同的 head 和损失函数，极大简化训练流程
数据合成 Pipeline（VEG-Edit）：
- 功能：将高质量图像编辑数据提升为视频编辑数据
- 核心流程：
  - 输入：原始图像 \(I\)、编辑后图像 \(\bar{I}\)、编辑指令
  - Step 1：MLLM 生成图像描述和动画 prompt
  - Step 2：Image-to-Video 模型将 \(I\) 动画化为视频 \(V\)
  - Step 3：First-frame-conditioned 视频编辑模型利用 \(\bar{I}\) 生成编辑后视频 \(\bar{V}\)
  - Step 4：自动视频质量评估过滤低质量样本
- 设计动机：高质量标注的视频编辑数据极其稀缺，但图像编辑数据丰富（如 MagicBrush、Seed-Data-Edit 共 340 万）。通过 I2V 生成+质量过滤可以高效扩展视频训练数据

损失函数 / 训练策略¶

全程仅使用扩散损失，不引入语言损失或掩码损失
Classifier-Free Guidance：测试时对 task tokens 和输入视频两路条件分别做 CFG：
- \(\tilde{e_\theta}(z_t, c_T, c_V) = e_\theta(z_t, \varnothing, \varnothing) + g_T \cdot (e_\theta(z_t, c_V, c_T) - e_\theta(z_t, c_V, \varnothing)) + g_V \cdot (e_\theta(z_t, c_V, \varnothing) - e_\theta(z_t, \varnothing, \varnothing))\)
数据：Stage 1 共 340 万图像对（Seed-Data-Edit 300 万 + 分割/推理数据），Stage 2 共 13.6 万视频对

实验关键数据¶

主实验¶

VEGGIE vs 基线方法在 VEG-Bench 上 8 种编辑技能的表现（部分关键技能）：

能力	指标	VidToMe	TokenFlow	InsV2V	LGVI	VEGGIE
概念添加	MLLM-Judge↑	5.00	5.80	5.69	2.73	7.44
概念添加	Detection↑	47.98	49.53	48.01	14.42	57.96
概念去除	MLLM-Judge↑	2.60	3.73	2.78	6.59	5.07
概念去除	Detection↑	34.31	55.16	25.64	78.40	70.22
物体替换	MLLM-Judge↑	5.00	6.53	6.60	2.06	6.63
视频定位	mIoU↑	0.00	0.00	0.00	0.00	47.30
推理分割	mIoU↑	0.00	0.00	0.00	0.00	32.80

VEGGIE 是唯一能同时完成所有 8 种任务的方法。其他基线在定位和推理分割任务上完全失败（mIoU=0）。

消融实验¶

配置	Add Judge↑	Remove Detect↑	Grounding mIoU↑	说明
w/o 视频数据 (Stage 2)	6.80	65.10	40.20	仅图像预训练
w/o 图像数据 (Stage 1)	5.20	55.30	35.10	直接在视频上训练
w/o 定位数据	7.10	68.50	0.00	编辑能力存在但无法定位
w/o 编辑数据	3.20	30.20	45.80	可定位但编辑崩塌
VEGGIE (full)	7.44	70.22	47.30	多任务互相促进

关键发现¶

多任务互促效应：定位数据帮助编辑模型更精确地识别编辑区域，编辑数据帮助定位模型理解物体语义。去掉任一类数据都会导致相关和无关任务的性能下降
VEGGIE 在添加/替换/风格化等创造性编辑任务上显著优于指令式基线 InsV2V，同时在去除任务上接近专注去除的 LGVI
零样本涌现能力：VEGGIE 展现出多模态指令跟随能力（从参考图添加物体/迁移风格）和少样本上下文编辑能力（通过示例对学习编辑模式），这些能力未被显式训练

亮点与洞察¶

"仅用扩散损失"统一多任务是一个优雅的设计——避免了多损失函数的权重调优问题，证明了像素空间生成可以天然承载分割、定位等理解任务
连续 task query 替代离散文本 token 是实现端到端的关键设计选择。这解决了 MLLM→VidDM pipeline 中梯度断裂的老问题
课程学习的必要性被实验清晰验证：跳过 Stage 1 直接在视频上训练会导致模型崩溃
数据合成 pipeline（图像→视频提升）为视频编辑领域的数据稀缺问题提供了可扩展的解决方案
VEG-Bench 首次提供了覆盖 8 种编辑技能的统一评估基准

局限与展望¶

基于 SD1.5 的 UNet 限制了视频质量和分辨率上限，未来可迁移到 SD3/FLUX 等更强的基础模型
去除任务上仍落后于专注去除的 LGVI（70.22 vs 78.40 Detection），说明统一模型在细分任务上可能存在天花板
所有基线的时序平滑度(Smoothness)普遍很高(>94)，说明该指标区分度有限
推理分割的 mIoU(32.8) 相比图像领域方法仍有较大差距，视频推理分割仍是开放问题

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐