DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2506.03517
代码: 有(项目页面)
领域: 视频生成 / 图像生成
关键词: video diffusion, DPO, preference optimization, temporal alignment, motion bias, segment-level, VLM annotation
一句话总结¶
提出 DenseDPO,通过三个创新解决视频扩散模型 DPO 训练的根本缺陷:(1) 从 GT 视频加噪去噪构造对齐的视频对消除运动偏差,(2) 在短时间片段而非整个视频上标注偏好提供更密集的学习信号,(3) 用 GPT 等 VLM 自动标注片段级偏好取代人工标注。仅用 1/3 标注数据即大幅提升运动生成质量。
背景与动机¶
DPO 已成为文本到视频扩散模型的重要后训练技术,但现有视频 DPO 存在内在缺陷: 1. 运动偏差:从独立噪声生成的视频对,标注者倾向于选择低运动的视频(因为高运动更容易出现视觉瑕疵),导致 DPO 训练后模型生成的视频运动量减少 2. 粗粒度标注:对整个视频(可能数秒/数十帧)打一个偏好标签,无法捕捉局部时间段的质量差异 3. 标注成本高:视频偏好标注比图像更昂贵
核心问题¶
如何设计视频 DPO 的数据构造和训练策略,消除运动偏差、提供更精细的时间粒度偏好信号,且降低标注成本?
方法详解¶
关键设计¶
- 对齐视频对构造(消除运动偏差): 不从独立噪声生成视频对,而是:
- 取一个 GT 视频
- 添加噪声产生corrupted 版本
-
从同一 corrupted 版本去噪两次得到两个视频 结果:两个视频具有相似的运动结构(来自同一 GT),仅在局部细节上不同,标注者无法基于运动量偏差来选择。
-
片段级偏好标注(更密集的信号): 由于视频对在时间上是对齐的(来自同一 GT),可以将视频分为短片段(如每 2-4 秒一段),在片段级别标注偏好。好处:
- 一个视频对产生多个偏好标签(N 段 → N 个标签,而非 1 个)
- 更精确——某些片段 A 更好,某些片段 B 更好
-
与整视频标注相比,标注者更容易做出准确判断
-
VLM 自动标注: 片段级偏好更适合 VLM(如 GPT-4V)自动标注——短片段更容易准确评判。实验证明 GPT 的片段级偏好预测与人类标注和专用视频奖励模型高度一致,使 DPO 训练可以完全自动化。
训练策略¶
标准 DPO 损失,但在片段级别应用。每个训练样本是一对对齐的视频片段 + 偏好标签。
实验关键数据¶
- 仅用 1/3 的标注数据,DenseDPO 在运动生成质量上大幅超越 vanilla DPO
- 文本对齐、视觉质量、时间一致性上与 vanilla DPO 持平或更好
- GPT 自动标注的 DenseDPO 性能接近人工标注版本
消融实验要点¶
- 对齐 vs 独立生成:对齐视频对显著减少运动偏差
- 片段级 vs 整视频级:片段级偏好提供更准确的学习信号
- 人工标注 vs VLM 标注:GPT-4V 标注接近人工质量
亮点¶
- 精准诊断了视频 DPO 的"运动偏差"问题——一个被广泛忽视的根本缺陷
- 从 GT 加噪去噪构造对齐视频对是优雅的解决方案
- 片段级标注一箭三雕:消偏、加密信号、降成本
- VLM 自动标注使方法可扩展——不需要大量人工标注
- NeurIPS 2025 Spotlight,论文质量得到认可
局限性 / 可改进方向¶
- 需要 GT 视频来构造训练数据(不能从纯生成的视频对训练)
- 片段长度的选择需要根据模型和任务调整
- VLM 标注的准确率在某些复杂场景下可能不足
- 未探索在更长视频(>10秒)上的效果
与相关工作的对比¶
- vs Vanilla Video DPO: DenseDPO 避免了运动偏差,用 1/3 数据就超越完整数据的 vanilla DPO
- vs InstructVideo: InstructVideo 用 reward model 做 RL 训练;DenseDPO 将 DPO 的数据构造方式改进,更简洁
- vs Diffusion-DPO (图像): 将 DPO 从图像扩展到视频时的核心挑战是时间维度的偏好标注;DenseDPO 专门解决了这个问题
启发与关联¶
- 对齐样本对 + 细粒度偏好的思想可迁移到图像编辑的 DPO(局部区域级偏好)
- VLM 自动标注视频偏好的框架可用于任何视频质量评估场景
- 与 BACL(同系列笔记)的关联:BACL 利用模糊负样本做课程学习,DenseDPO 利用对齐视频对做精细偏好——两者都强调"更好的样本构造"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 精准定位运动偏差问题 + 对齐对+片段级标注的完整解决方案
- 实验充分度: ⭐⭐⭐⭐ 对比充分,消融证据有力
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义精准,方法设计的每个决定都有清晰动机
- 价值: ⭐⭐⭐⭐⭐ 对视频对齐/DPO 社区有重大影响,Spotlight 实至名归