VPO: Aligning Text-to-Video Generation Models with Prompt Optimization¶
元信息¶
- 会议: ICCV 2025
- arXiv: 2503.20491
- 作者: Jiale Cheng, Ruiliang Lyu, Xiaotao Gu, Xiao Liu, Jiazheng Xu 等 (清华大学 CoAI, 智谱AI, 清华 KEG)
- 代码: GitHub
- 领域: 视频理解 / 视频生成
- 关键词: Prompt Optimization, 视频生成, 文本对齐, RLHF, DPO, 安全性, CogVideoX
一句话总结¶
提出 VPO 框架,基于三大原则(无害、准确、有用)系统性优化视频生成的文本提示,通过原则导向的SFT和多反馈偏好优化,显著提升生成视频的安全性、对齐度和质量。
研究背景与动机¶
问题定义¶
视频生成模型训练时使用精心标注的详细描述,但推理时用户输入往往简短、模糊或结构不良。Prompt optimization 旨在弥合这一鸿沟,将用户输入转化为高质量的视频生成提示。
现有方法的问题¶
安全隐患: 现有 LLM in-context learning 方法不显式确保优化后的提示安全,可能生成有害内容
意图扭曲: 提示重写可能无意中改变用户本意或引入偏差
忽视视频质量: 现有方法优化提示的语义丰富度,但不考虑对最终视频质量的影响
LLM拒绝问题: LLM 可能拒绝处理含敏感关键词的查询(如抽象表述"20 - 11 coins = 9 coins")
核心原则(类比 LLM 的 HHH)¶
- Harmless(无害): 优化后提示不应包含血腥、暴力等有害内容
- Accurate(准确): 准确保持用户意图,除安全问题外不改变原意
- Helpful(有用): 提示应详细描述性,帮助模型生成高质量视频
方法详解¶
整体框架¶
VPO 分为两个阶段: 1. Principle-Based SFT: 构建高质量SFT数据集并微调基座模型 2. Multi-Feedback Preference Optimization: 结合文本级和视频级反馈进行DPO训练
Stage 1: Principle-Based SFT¶
查询筛选¶
- 来源: VidProM 数据集(100万+真实 text-to-video 查询)
- 规则过滤: 关键词、特殊字符、长度
- 多样性过滤: self-BLEU 去重
- 安全查询: 提取不安全标签的查询 + LLM重新评估
- 最终: ~18k 通用查询 + 2k 安全相关查询
初始优化提示生成¶
使用 GPT-4o + 精心设计的 few-shot 示例生成初始优化提示
原则驱动精炼¶
- LLM-as-a-judge 按三大原则评估提示
- 识别问题(有害内容、遗漏关键信息、模糊描述),生成批评 \(c\)
- 基于批评精炼: \((x, p) \rightarrow (x, p_{refined})\)
SFT训练¶
\[\mathcal{L} = -\frac{1}{N} \sum_{i=1}^{N} \log P(s|x, s_{<i})\]
Stage 2: Multi-Feedback Preference Optimization¶
文本级偏好数据构建¶
- 对每个查询 \(x\),从SFT模型采样 \(K\) 个优化提示
- LLM-as-a-judge 检查是否违反原则
- 有缺陷的提示 → 精炼 → 构成偏好对 \((x, p_j < p_{j_{refined}})\)
视频级偏好数据构建¶
- 通过文本级检查的提示 → 生成视频
- 使用 VisionReward 评估视频质量得分 \(r_m\)
- 根据得分差构建偏好对 \((x, p_m < p_{m+1})\),要求得分差 > 0.5
DPO训练¶
\[\mathcal{L}_{DPO}(\pi_\theta; \pi_{ref}) = -\mathbb{E}_{(x,p_w,p_l) \sim D_{dpo}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(p_w|x)}{\pi_{ref}(p_w|x)} - \beta \log \frac{\pi_\theta(p_l|x)}{\pi_{ref}(p_l|x)} \right) \right]\]
- 训练数据: \(D_{dpo} = D_{text} \cup D_{video}\)
- 基座模型: LLaMA3-8B-Instruct
实验关键数据¶
主实验结果 — MonetBench & VBench¶
| 方法 | MonetBench Overall | Human Action | Scene | Multiple Objects | Appear. Style |
|---|---|---|---|---|---|
| CogVideoX-2B | |||||
| Original Query | 3.27 | 80.00 | 28.34 | 40.17 | 22.60 |
| GLM-4 Few-Shot | 3.57 | 96.20 | 55.51 | 68.40 | 23.47 |
| GPT-4o Few-Shot | 3.58 | 98.20 | 52.53 | 63.63 | 23.73 |
| VPO-SFT | 3.59 | 97.00 | 55.04 | 68.98 | 24.13 |
| VPO | 3.76 | 99.00 | 55.83 | 70.17 | 24.20 |
| CogVideoX-5B | |||||
| Original Query | 3.77 | 88.00 | 41.32 | 45.67 | 23.37 |
| GLM-4 Few-Shot | 3.98 | 98.40 | 55.60 | 72.38 | 24.39 |
| GPT-4o Few-Shot | 4.03 | 99.20 | 53.13 | 72.21 | 24.20 |
| VPO-SFT | 4.01 | 97.20 | 58.40 | 73.70 | 24.55 |
| VPO | 4.15 | 99.60 | 55.68 | 75.73 | 24.57 |
文本对齐评估¶
| 方法 | Aligned↑ | Unsafe↓ | Imprecise↓ | Refusal↓ |
|---|---|---|---|---|
| GLM-4 Few-Shot | 83.4 | 5.4 | 10.0 | 1.2 |
| GPT-4o Few-Shot | 86.4 | 2.4 | 8.6 | 2.6 |
| VPO-SFT | 93.8 | 0.8 | 5.4 | 0.0 |
| VPO (2B) | 94.6 | 0.6 | 4.8 | 0.0 |
| VPO (5B) | 94.8 | 0.4 | 4.8 | 0.0 |
跨模型泛化 — Open-Sora 1.2¶
| 方法 | Human Action | Scene | Multiple Objects |
|---|---|---|---|
| Original Query | 88.80 | 44.08 | 55.99 |
| GPT-4o Few-Shot | 92.40 | 53.21 | 65.02 |
| VPO | 97.00 | 53.58 | 67.88 |
关键发现¶
- VPO显著领先: 在 CogVideoX-5B 上,人类评估 VPO 的胜率比原始查询高37.5%,比官方prompt优化高14%
- 安全性大幅提升: 不安全率从 5.4%(GLM-4) 降至 0.4%(VPO),Level 1 完全安全率大幅提高
- 文本级反馈关键: 移除文本级反馈不仅降低安全性,还影响通用视频生成质量
- VPO超越Diffusion DPO: 作为RLHF方法,VPO优于Diffusion DPO,且两者可叠加
- 跨模型泛化: 在 CogVideoX-2B 上训练的 VPO 直接提升 Open-Sora 1.2 性能
- 迭代优化稳定: 可迭代优化3轮后趋于稳定,不会过度优化损害质量
亮点与洞察¶
- 原则驱动的系统性方法: 不同于简单的提示重写,VPO 将 LLM 对齐的 HHH 原则引入视频提示优化,方法论严谨
- 多层级反馈: 同时考虑文本级(安全+准确)和视频级(质量),形成完整的优化闭环
- Prompt Optimization ≈ RLHF: 揭示了一个重要洞察——优化提示和优化模型是对齐视频生成模型的正交且互补手段
- 实用性强: VPO 训练开销小(基于 LLaMA3-8B),部署简单,泛化性好
- 安全性不应被忽视: Case study 生动展示了 few-shot 方法生成有害内容的风险
局限性¶
- 依赖特定视频生成模型: 视频级偏好数据依赖目标模型生成视频,更换模型需重新构建
- 评估模型偏差: 视频级反馈依赖 VisionReward,受限于该奖励模型的偏差
- GPT-4o 依赖: SFT 数据构建和文本级评判均依赖 GPT-4o
- 仅针对提示优化: 不优化视频生成模型本身,改善幅度受限于模型能力上限
相关工作与启发¶
相关研究¶
- 视频生成: CogVideoX, Open-Sora, Stable Video Diffusion, HunyuanVideo
- Prompt优化: AutoPrompt, Promptist, Prompt-A-Video
- RLHF on Diffusion: Diffusion DPO
- 视频评估: VBench, VisionReward, MonetBench
启发¶
- 训练-推理时的数据分布差距是所有生成模型的共性问题,prompt optimization 是轻量级的解决方案
- Principle-based refinement (批评+精炼) 是构建高质量数据的有效范式
- 安全性与质量并非对立——改善安全也能提升通用性能
评分¶
| 维度 | 评分 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 实验 | ⭐⭐⭐⭐⭐ |
| 写作 | ⭐⭐⭐⭐⭐ |
| 价值 | ⭐⭐⭐⭐⭐ |
相关论文¶
- [CVPR 2025] The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
- [CVPR 2025] Optical-Flow Guided Prompt Optimization for Coherent Video Generation
- [ICCV 2025] TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
- [ICCV 2025] Aligning Moments in Time using Video Queries
- [ICCV 2025] Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM