跳转至

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation

日期: 2026-03-03
arXiv: 2603.03505
代码: 无
领域: 视频理解
关键词: 文本到视频, 物理常识, 提示优化, GRPO, 动态奖励课程

一句话总结

PhyPrompt 用两阶段训练(物理 CoT 微调+动态奖励 GRPO)自动将用户提示重写为物理感知描述,7B 模型在 VideoPhy2 上达到 40.8% 联合成功率,超越 GPT-4o(+3.8%)和 DeepSeek-V3(+2.2%,100 倍参数),且零样本迁移到 4 种不同 T2V 架构。

研究背景与动机

  1. 领域现状:T2V 模型视觉质量很高,但经常违反基本物理常识——物体穿透、忽略重力、液面不变等。
  2. 现有痛点:(1) 这不是模型能力不足,而是提示缺乏物理约束——手动加入物理细节("液面稳步上升")就能生成物理合理的视频;(2) 手动提示工程需要专业知识且不可扩展;(3) 现有自动方法(Promptist、VPO)不针对物理合理性,PhyT2V 需要多轮迭代。
  3. 核心矛盾:语义忠实度和物理合理性之间存在冲突——单目标优化 SA 会损害 PC,反之亦然。静态加权组合无法联合最大化。
  4. 切入角度:用动态奖励课程先建立语义脚手架,再逐渐转向物理约束,发现超越帕累托最优的组合提示结构。
  5. 核心 idea 一句话:SFT 学物理推理+GRPO 动态课程从语义→物理渐进优化,一个轻量重写器零样本迁移到任意 T2V 后端。

方法详解

整体框架

两阶段训练:(1) 在物理 CoT 数据集上 SFT,教 LLM 进行物理感知推理;(2) GRPO 进一步优化,用动态奖励课程平衡语义忠实和物理合理。推理时只需一次前向传播,重写提示后送入任意冻结的 T2V 生成器。

关键设计

  1. 物理 CoT 数据集

    • 基于 PhyGenBench 的 160 个样本,用 GPT-o1-preview 为每个(原始提示→增强提示)补充推理链
    • 每个样本包含:原始提示 \(x\)、物理定律 \(L\)、推理链 \(\mathbf{r}\)、物理感知提示 \(y_{\text{CoT}}\)
    • SFT 在 Qwen2.5 上对推理链+增强提示做交叉熵训练
  2. 动态奖励课程(核心创新)

    • 复合奖励:\(R(t) = w_{\text{sa}}(t) \cdot r_{\text{sa}} + w_{\text{pc}}(t) \cdot r_{\text{pc}}\)
    • 指数衰减:\(w_{\text{sa}}(t) = \exp(-\alpha \cdot t/T)\)\(w_{\text{pc}}(t) = 1 - w_{\text{sa}}(t)\)
    • 早期训练 \(w_{\text{sa}} \approx 1\):建立语义脚手架——物体身份、关系、场景结构
    • 晚期训练 \(w_{\text{pc}} \approx 1\):在语义框架上精化物理细节——力、动态、因果
    • 超加性发现:课程训练同时超越 SA-only 和 PC-only 的上界,发现了静态帕累托前沿无法触及的组合提示结构
  3. GRPO 优化

    • 每个提示采样 G=4 个候选重写
    • 每个重写送入 CogVideoX-2B 生成视频
    • VideoPhy2-AutoEval 评分(SA 5 级 + PC 5 级)
    • 组内归一化优势 + 裁剪 PPO + KL 正则

训练策略

  • 基础模型:Qwen2.5-Instruct(1.5B/3B/7B)
  • T2V 生成器完全冻结,只训练轻量重写器
  • 衰减率 α 控制课程速度

实验关键数据

VideoPhy2 + CogVideoX-2B

方法 SA↑ PC↑ Joint↑
原始提示 43.4% 55.8% 32.2%
Promptist 41.2% 58.2% 30.2%
PhyT2V 45.0% 62.0% 36.2%
GPT-4o 47.0% 60.0% 37.0%
DeepSeek-V3 (671B) 48.4% 64.6% 38.6%
PhyPrompt-7B 47.8% 66.8% 40.8%

零样本迁移

生成器 原始 PhyPrompt-7B 提升
Lavie (860M) 29.2% 31.6% +8.2%
VideoCrafter2 (1.2B) 29.8% 34.8% +16.8%
CogVideoX-5B 39.4% 42.0% +6.6%

消融实验

配置 Joint 说明
动态课程 40.8% 完整方法
静态奖励 ~36% 固定权重
只优化 SA ~35% SA 高但 PC 差
只优化 PC ~37% PC 高但 SA 差
无 SFT 直接 GRPO ~35% 退化明显

关键发现

  • 动态课程的超加性效应:Joint 40.8% > SA-only (~35%) 且 > PC-only (~37%),证明渐进课程发现了两种单目标无法触及的提示结构
  • 7B 模型超越 671B DeepSeek-V3,证明领域特化训练+直接任务反馈比规模扩展更高效
  • 零样本迁移能力强,说明物理感知重写捕捉的是模型无关的物理先验
  • SFT 阶段必不可少——没有物理 CoT 预训练直接做 GRPO 效果差很多

亮点与洞察

  • 动态课程发现超帕累托解:早期语义→晚期物理的渐进优化不是简单的权衡折衷,而是发现了新的组合提示结构——这个发现本身就有理论价值
  • 重写器与生成器解耦是非常实用的设计:一个重写器服务多个后端,避免了对每个 T2V 模型微调的巨大成本
  • 物理 CoT → RL 的两阶段管线可迁移到其他需要领域知识注入的 RL 场景

局限性 / 可改进方向

  • 物理 CoT 数据集只有 160 个样本,覆盖的物理定律有限
  • 训练时需要为每个候选重写生成视频并评分,计算成本高
  • VideoPhy2-AutoEval 的自动评分与人类判断可能不完全一致
  • 仅测试简单物理场景(液体、碰撞),未涉及复杂多体动力学

相关工作与启发

  • vs Promptist:Promptist 针对 T2I 美学奖励,PhyPrompt 针对 T2V 物理奖励,且是首个端到端 RL 在视频物理奖励上训练的重写器
  • vs PhyT2V:PhyT2V 用多轮 LLM 自精化迭代,PhyPrompt 一次前向传播,效率高
  • vs VPO:VPO 用偏好 RL 做安全和准确性,不针对物理合理性

评分

  • 新颖性: ⭐⭐⭐⭐ 动态奖励课程的超加性发现是亮点
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个生成器、多个基线、完整消融、零样本迁移验证
  • 写作质量: ⭐⭐⭐⭐ 动机用倒酒例子说明非常直观
  • 价值: ⭐⭐⭐⭐ 轻量级、模型无关的物理感知提示优化,实用性强