DIVE: Taming DINO for Subject-Driven Video Editing¶

基本信息¶

会议: ICCV 2025
arXiv: 2412.03347
代码: 未公开
领域: 图像/视频生成 / 视频编辑
关键词: 视频编辑, DINO特征, 主体驱动, 运动一致性, LoRA, 扩散模型

一句话总结¶

提出DIVE框架，利用预训练DINOv2模型的语义特征作为隐式对应关系来引导主体驱动的视频编辑，通过DINO特征进行时序运动建模和目标主体身份注册，实现高质量的主体替换同时保持运动一致性。

研究背景与动机¶

问题定义：主体驱动的视频编辑需要在源视频中替换主体（动物、物体等），使编辑后的视频保持原始运动轨迹和时序一致性，同时精确呈现目标主体身份。
现有方法局限：
- 基于注意力的方法（Tune-A-Video、FateZero等）：通过注意力图/特征注入传递运动信息，但存储的特征可能保留源主体外观信息，导致源和目标外观混合
- 基于稠密对应关系的方法（光流、深度图、边缘图）：高密度导致视觉内容不连贯和闪烁
- VideoSwap使用稀疏语义点作为对应关系：能精确对齐运动轨迹，但需要手动标注
关键发现：DINOv2特征在视频帧间具有高语义一致性，同时包含极少外观信息，天然适合作为鲁棒的视频对应关系（Fig.2展示了DINO特征三大优势：运动跟踪、外观稀疏、语义一致但帧内有区分度）

方法详解¶

整体框架¶

DIVE分为三个阶段：（1）时序运动建模 → （2）主体身份注册 → （3）推理。

Stage 1：时序运动建模¶

目标：从源视频中提取运动信息，作为编辑时的运动引导。

对源视频每帧提取DINOv2（ViT-g/14）语义特征\(\mathbf{F}_d \in \mathbb{R}^{N \times h \times w \times c}\)
利用PCA降维+阈值化自动生成前景mask，分离前景主体特征
通过可学习MLP集合\(\boldsymbol{\psi} = \{\boldsymbol{\psi}_l | l \in \{1,2,3,4\}\}\)将DINO特征投影到扩散模型特征空间
投影后特征通过逐元素相加注入U-Net编码器各下采样块的中间特征：

\[\mathbf{F}_l^t \leftarrow \mathbf{F}_l^t + \lambda \mathbf{F}_l^s\]

优化目标：仅优化MLP参数\(\boldsymbol{\psi}\)，使扩散模型在前景区域的去噪能力更强：

\[\min_{\boldsymbol{\psi}} \mathbb{E}_{\epsilon,t} \|[\epsilon - \epsilon_{\theta'}(\mathbf{Z}^t, t, \mathbf{c}, \boldsymbol{\psi}(\mathbf{F}_d))] \odot \mathbf{M}\|_2^2\]

仅在\(t \in [T/2, T]\)的较高时间步训练，避免过拟合到主体低级细节

Stage 2：主体身份注册¶

目标：从参考图像中学习目标主体身份。

使用3-5张目标主体参考图像
提取参考图像的DINOv2前景特征\(\tilde{\mathbf{F}}_d\)，通过另一组MLP \(\boldsymbol{\phi}\)投影到扩散空间
与Stable Diffusion中间特征融合，提供准确的身份引导
训练LoRA \(\Delta\theta\)注册目标身份：

\[\min_{\boldsymbol{\phi}, \Delta\theta} \mathbb{E}_{\epsilon,t} \|[\epsilon - \epsilon_{\theta+\Delta\theta}(\mathbf{I}^t, t, \tilde{\mathbf{c}}, \boldsymbol{\phi}(\tilde{\mathbf{F}}_d))] \odot \tilde{\mathbf{M}}\|_2^2\]

DINO特征提供高级语义匹配（如部件级对应），弥补SD特征仅捕获低级空间信息的不足

Stage 3：推理¶

DDIM反演获取源视频初始噪声
在\(T\)到\(T/2\)的去噪步骤中注入Stage 1学到的运动引导特征
使用Stage 2的预训练LoRA提供身份引导
替换文本prompt中的源主体词（如"cat"→"dog"）
利用前景mask进行latent blending保持背景不变

实验关键数据¶

定量评估（参考图像引导）¶

方法	Text Align↑	Image Align↑	Temporal Consist↑	Video Quality↑	用户偏好↑
Slicedit	28.21	64.57	91.09	0.592	6.73%
AnyV2V	28.13	78.26	90.52	0.439	13.2%
FLATTEN	28.79	69.32	92.09	0.683	8.67%
RAVE	28.26	66.25	91.71	0.646	5.80%
DIVE	29.43	84.27	92.33	0.775	65.6%

DIVE在所有指标上均优于竞争方法，用户偏好高达65.6%（远超第二名的13.2%）。

消融实验¶

配置	Text Align↑	Image Align↑	Temporal Consist↑	Video Quality↑
w/o DINO, w/ learnable motion	29.91	67.49	92.18	0.737
w/ DINO λ=0 (仅LoRA)	-	-	-	运动不一致
w/ DINO λ=0.5	-	-	-	运动部分缺失
w/ DINO λ=1.0 (完整)	29.43	84.27	92.33	0.775

运动引导消融：不使用DINO特征、仅依赖AnimateDiff的时序建模会导致源主体外观残留和图像不对齐。λ值影响运动引导强度。

身份引导消融：不含DINO引导的身份注册存在语义错误（如有尾vs无尾的柯基犬），DINO提供部件级语义引导使模型更忠实于参考图像。

文本引导编辑结果¶

方法	Text Align↑	Temporal Consist↑	Video Quality↑	用户偏好↑
Slicedit	31.24	92.95	0.562	5.50%
AnyV2V	31.05	93.73	0.533	19.9%
FLATTEN	31.55	95.35	0.567	11.9%
RAVE	31.57	95.12	0.588	9.90%
DIVE	32.29	95.89	0.614	52.8%

亮点与洞察¶

DINO特征的双重价值：同时用于运动建模和身份注册，核心在于DINO特征的三大特性——运动跟踪能力、外观稀疏性、语义一致性
运动与外观解耦：通过DINO的外观稀疏性自然实现了运动和外观的解耦，避免了注意力方法中的外观泄露问题
无需手动标注：相比VideoSwap需要手动定义语义点，DINO特征自动提供鲁棒的隐式对应关系
PCA自动分割前景：利用DINO特征PCA降维+阈值化自动生成前景mask，无需额外分割模型
用户偏好碾压式领先：65.6%用户偏好率远超其他方法，说明视觉质量差异显著

局限性¶

基于Stable Diffusion 1.5，生成质量受基础模型限制
每个视频需独立训练Stage 1和Stage 2（50-100 + 800-1000次迭代），不够高效
仅在16帧短视频上验证，长视频的表现未知
参考图像引导需3-5张目标主体图像，单张图像场景未探讨
依赖DDIM反演质量，复杂背景或大运动时可能不稳定

评分¶

新颖性: ⭐⭐⭐⭐ （DINO特征用于视频对应关系的动机清晰、应用巧妙）
实验: ⭐⭐⭐⭐ （全面的定量对比和消融，用户研究有力）
写作: ⭐⭐⭐⭐ （PCA可视化等分析直观，pipeline图清晰）
价值: ⭐⭐⭐⭐ （首次系统探索DINO在视频编辑中的潜力，开辟新方向）