Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM¶

元信息¶

会议: ICCV 2025
arXiv: 2412.15156
代码: GitHub
领域: 扩散模型 · 提示词优化
关键词: 视频生成, 提示词增强, LLM, DPO, 奖励引导进化

一句话总结¶

提出Prompt-A-Video，通过奖励引导的提示词进化流水线自动构建训练数据，经过SFT和DPO两阶段优化LLM，生成针对特定视频扩散模型偏好对齐的增强提示词。

研究背景与动机¶

文本到视频模型对输入提示词极为敏感——训练时使用的是LVLM生成的复杂描述，而用户输入往往简短粗糙。现有提示词优化方法存在三大问题：

模态不一致：图像提示词强调静态属性（构图、颜色），忽视视频特有的运动流畅性、叙事连贯性

成本差异：缺乏成熟的视频提示词平台和社区经验

模型无感知：GPT直接扩展的提示词未考虑特定视频模型的偏好

核心目标：设计一个以视频为中心、免人工、偏好对齐的提示词优化系统。

方法详解¶

多维度奖励系统¶

图像级： - Aesthetic Predictor（美学评分） - MPS（多维人类偏好评分）

视频级（VideoScore模型）： - 视觉质量(VQ)、时间一致性(TC)、动态程度(DD)、文本-视频对齐(TVA)、事实一致性(FC)

共7个维度的综合评估。

奖励引导提示词进化（数据引擎）¶

借鉴进化算法思想，用GPT-4o作为进化操作器：

评估：生成视频 → 多维奖励打分 → 分数附加到对应提示词
选择：综合所有指标选择top-N提示词
进化：将初始提示词+高分历史提示词输入GPT-4o，一次生成3个精化版本

迭代4轮，最终选择各维度超过阈值且总分最高的提示词，构建(原始, 目标)训练对。

两阶段优化¶

阶段一：SFT

\[\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{(x,y)} \log p(y|s,x)\]

使用LoRA微调LLaMA3-Instruct，赋予基础的提示词增强能力。

阶段二：DPO

SFT模型为每个输入生成5个候选 → 生成视频 → 奖励模型打分 → 选择最优/最差构建三元组 → DPO优化：

\[\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_w,y_l) \sim \mathcal{D}} \left[\log \sigma\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}\right)\right]\]

执行2轮迭代DPO，每轮基于上一轮模型重新生成三元组数据。

实验¶

Open-Sora 1.2 + CogVideoX定量对比¶

模型/方法	VQ	TC	DD	TVA	FC	Avg
Open-Sora原始	3.079	3.084	3.203	3.156	3.060	3.116
GPT-4o	3.014	3.082	3.103	3.167	3.031	3.079
Ours(DPO-2)	3.254	3.286	3.411	3.358	3.282	3.318
CogVideoX原始	2.899	2.886	3.186	3.167	2.808	2.989
GLM-4	2.878	2.948	3.139	3.184	2.833	2.996
Ours(DPO-2)	2.930	3.019	3.183	3.259	2.888	3.056

Open-Sora上平均提升0.202（GPT-4o仅-0.037），CogVideoX上提升0.067。

用户研究（VBench 100提示词）¶

对比	Prompt-A-Video胜率
vs 原始提示(Open-Sora)	~65%
vs GPT-4o(Open-Sora)	~55%
vs 原始提示(CogVideoX)	~60%

关键发现¶

SFT赋予基础能力但性能有限，DPO阶段带来实质性提升
图像提示词增强模型（Promptist）直接用于视频反而降低性能
两轮DPO后收敛，额外迭代不再带来改进
方法可泛化到text-to-image任务（在HPSv2上超越Promptist和PAE）

亮点与洞察¶

闭环优化：进化算法→SFT→DPO的递进策略，每阶段有明确目标
模型特异性：不同视频模型有不同偏好，同一框架可针对性训练
自动化数据引擎：零人工标注，完全靠奖励模型驱动
泛化性：视频优化的方法也能提升图像生成质量

局限性¶

进化流水线依赖GPT-4o，数据构建成本不低
DPO训练需要大量视频生成和评估，计算开销显著
动态程度(DD)在优化过程中可能被其他指标压制
奖励模型本身的偏差会传递到优化结果

评分¶

新颖性：★★★★☆ — 首个面向视频扩散模型的提示词优化系统
技术深度：★★★★☆ — 多阶段优化设计精巧
实用性：★★★★★ — 直接提升用户视频生成体验