PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation¶
日期: 2026-03-03
arXiv: 2603.03505
代码: 无
领域: 视频理解
关键词: 文本到视频, 物理常识, 提示优化, GRPO, 动态奖励课程
一句话总结¶
PhyPrompt 用两阶段训练(物理 CoT 微调+动态奖励 GRPO)自动将用户提示重写为物理感知描述,7B 模型在 VideoPhy2 上达到 40.8% 联合成功率,超越 GPT-4o(+3.8%)和 DeepSeek-V3(+2.2%,100 倍参数),且零样本迁移到 4 种不同 T2V 架构。
研究背景与动机¶
- 领域现状:T2V 模型视觉质量很高,但经常违反基本物理常识——物体穿透、忽略重力、液面不变等。
- 现有痛点:(1) 这不是模型能力不足,而是提示缺乏物理约束——手动加入物理细节("液面稳步上升")就能生成物理合理的视频;(2) 手动提示工程需要专业知识且不可扩展;(3) 现有自动方法(Promptist、VPO)不针对物理合理性,PhyT2V 需要多轮迭代。
- 核心矛盾:语义忠实度和物理合理性之间存在冲突——单目标优化 SA 会损害 PC,反之亦然。静态加权组合无法联合最大化。
- 切入角度:用动态奖励课程先建立语义脚手架,再逐渐转向物理约束,发现超越帕累托最优的组合提示结构。
- 核心 idea 一句话:SFT 学物理推理+GRPO 动态课程从语义→物理渐进优化,一个轻量重写器零样本迁移到任意 T2V 后端。
方法详解¶
整体框架¶
两阶段训练:(1) 在物理 CoT 数据集上 SFT,教 LLM 进行物理感知推理;(2) GRPO 进一步优化,用动态奖励课程平衡语义忠实和物理合理。推理时只需一次前向传播,重写提示后送入任意冻结的 T2V 生成器。
关键设计¶
-
物理 CoT 数据集:
- 基于 PhyGenBench 的 160 个样本,用 GPT-o1-preview 为每个(原始提示→增强提示)补充推理链
- 每个样本包含:原始提示 \(x\)、物理定律 \(L\)、推理链 \(\mathbf{r}\)、物理感知提示 \(y_{\text{CoT}}\)
- SFT 在 Qwen2.5 上对推理链+增强提示做交叉熵训练
-
动态奖励课程(核心创新):
- 复合奖励:\(R(t) = w_{\text{sa}}(t) \cdot r_{\text{sa}} + w_{\text{pc}}(t) \cdot r_{\text{pc}}\)
- 指数衰减:\(w_{\text{sa}}(t) = \exp(-\alpha \cdot t/T)\),\(w_{\text{pc}}(t) = 1 - w_{\text{sa}}(t)\)
- 早期训练 \(w_{\text{sa}} \approx 1\):建立语义脚手架——物体身份、关系、场景结构
- 晚期训练 \(w_{\text{pc}} \approx 1\):在语义框架上精化物理细节——力、动态、因果
- 超加性发现:课程训练同时超越 SA-only 和 PC-only 的上界,发现了静态帕累托前沿无法触及的组合提示结构
-
GRPO 优化:
- 每个提示采样 G=4 个候选重写
- 每个重写送入 CogVideoX-2B 生成视频
- VideoPhy2-AutoEval 评分(SA 5 级 + PC 5 级)
- 组内归一化优势 + 裁剪 PPO + KL 正则
训练策略¶
- 基础模型:Qwen2.5-Instruct(1.5B/3B/7B)
- T2V 生成器完全冻结,只训练轻量重写器
- 衰减率 α 控制课程速度
实验关键数据¶
VideoPhy2 + CogVideoX-2B¶
| 方法 | SA↑ | PC↑ | Joint↑ |
|---|---|---|---|
| 原始提示 | 43.4% | 55.8% | 32.2% |
| Promptist | 41.2% | 58.2% | 30.2% |
| PhyT2V | 45.0% | 62.0% | 36.2% |
| GPT-4o | 47.0% | 60.0% | 37.0% |
| DeepSeek-V3 (671B) | 48.4% | 64.6% | 38.6% |
| PhyPrompt-7B | 47.8% | 66.8% | 40.8% |
零样本迁移¶
| 生成器 | 原始 | PhyPrompt-7B | 提升 |
|---|---|---|---|
| Lavie (860M) | 29.2% | 31.6% | +8.2% |
| VideoCrafter2 (1.2B) | 29.8% | 34.8% | +16.8% |
| CogVideoX-5B | 39.4% | 42.0% | +6.6% |
消融实验¶
| 配置 | Joint | 说明 |
|---|---|---|
| 动态课程 | 40.8% | 完整方法 |
| 静态奖励 | ~36% | 固定权重 |
| 只优化 SA | ~35% | SA 高但 PC 差 |
| 只优化 PC | ~37% | PC 高但 SA 差 |
| 无 SFT 直接 GRPO | ~35% | 退化明显 |
关键发现¶
- 动态课程的超加性效应:Joint 40.8% > SA-only (~35%) 且 > PC-only (~37%),证明渐进课程发现了两种单目标无法触及的提示结构
- 7B 模型超越 671B DeepSeek-V3,证明领域特化训练+直接任务反馈比规模扩展更高效
- 零样本迁移能力强,说明物理感知重写捕捉的是模型无关的物理先验
- SFT 阶段必不可少——没有物理 CoT 预训练直接做 GRPO 效果差很多
亮点与洞察¶
- 动态课程发现超帕累托解:早期语义→晚期物理的渐进优化不是简单的权衡折衷,而是发现了新的组合提示结构——这个发现本身就有理论价值
- 重写器与生成器解耦是非常实用的设计:一个重写器服务多个后端,避免了对每个 T2V 模型微调的巨大成本
- 物理 CoT → RL 的两阶段管线可迁移到其他需要领域知识注入的 RL 场景
局限性 / 可改进方向¶
- 物理 CoT 数据集只有 160 个样本,覆盖的物理定律有限
- 训练时需要为每个候选重写生成视频并评分,计算成本高
- VideoPhy2-AutoEval 的自动评分与人类判断可能不完全一致
- 仅测试简单物理场景(液体、碰撞),未涉及复杂多体动力学
相关工作与启发¶
- vs Promptist:Promptist 针对 T2I 美学奖励,PhyPrompt 针对 T2V 物理奖励,且是首个端到端 RL 在视频物理奖励上训练的重写器
- vs PhyT2V:PhyT2V 用多轮 LLM 自精化迭代,PhyPrompt 一次前向传播,效率高
- vs VPO:VPO 用偏好 RL 做安全和准确性,不针对物理合理性
评分¶
- 新颖性: ⭐⭐⭐⭐ 动态奖励课程的超加性发现是亮点
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个生成器、多个基线、完整消融、零样本迁移验证
- 写作质量: ⭐⭐⭐⭐ 动机用倒酒例子说明非常直观
- 价值: ⭐⭐⭐⭐ 轻量级、模型无关的物理感知提示优化,实用性强