PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation¶

日期: 2026-03-03
arXiv: 2603.03505
代码: 无
领域: 视频理解
关键词: 文本到视频, 物理常识, 提示优化, GRPO, 动态奖励课程

一句话总结¶

PhyPrompt 用两阶段训练（物理 CoT 微调+动态奖励 GRPO）自动将用户提示重写为物理感知描述，7B 模型在 VideoPhy2 上达到 40.8% 联合成功率，超越 GPT-4o（+3.8%）和 DeepSeek-V3（+2.2%，100 倍参数），且零样本迁移到 4 种不同 T2V 架构。

研究背景与动机¶

领域现状：T2V 模型视觉质量很高，但经常违反基本物理常识——物体穿透、忽略重力、液面不变等。
现有痛点：(1) 这不是模型能力不足，而是提示缺乏物理约束——手动加入物理细节（"液面稳步上升"）就能生成物理合理的视频；(2) 手动提示工程需要专业知识且不可扩展；(3) 现有自动方法（Promptist、VPO）不针对物理合理性，PhyT2V 需要多轮迭代。
核心矛盾：语义忠实度和物理合理性之间存在冲突——单目标优化 SA 会损害 PC，反之亦然。静态加权组合无法联合最大化。
切入角度：用动态奖励课程先建立语义脚手架，再逐渐转向物理约束，发现超越帕累托最优的组合提示结构。
核心 idea 一句话：SFT 学物理推理+GRPO 动态课程从语义→物理渐进优化，一个轻量重写器零样本迁移到任意 T2V 后端。

方法详解¶

整体框架¶

两阶段训练：(1) 在物理 CoT 数据集上 SFT，教 LLM 进行物理感知推理；(2) GRPO 进一步优化，用动态奖励课程平衡语义忠实和物理合理。推理时只需一次前向传播，重写提示后送入任意冻结的 T2V 生成器。

关键设计¶

物理 CoT 数据集：
- 基于 PhyGenBench 的 160 个样本，用 GPT-o1-preview 为每个（原始提示→增强提示）补充推理链
- 每个样本包含：原始提示 \(x\)、物理定律 \(L\)、推理链 \(\mathbf{r}\)、物理感知提示 \(y_{\text{CoT}}\)
- SFT 在 Qwen2.5 上对推理链+增强提示做交叉熵训练
动态奖励课程（核心创新）：
- 复合奖励：\(R(t) = w_{\text{sa}}(t) \cdot r_{\text{sa}} + w_{\text{pc}}(t) \cdot r_{\text{pc}}\)
- 指数衰减：\(w_{\text{sa}}(t) = \exp(-\alpha \cdot t/T)\)，\(w_{\text{pc}}(t) = 1 - w_{\text{sa}}(t)\)
- 早期训练 \(w_{\text{sa}} \approx 1\)：建立语义脚手架——物体身份、关系、场景结构
- 晚期训练 \(w_{\text{pc}} \approx 1\)：在语义框架上精化物理细节——力、动态、因果
- 超加性发现：课程训练同时超越 SA-only 和 PC-only 的上界，发现了静态帕累托前沿无法触及的组合提示结构
GRPO 优化：
- 每个提示采样 G=4 个候选重写
- 每个重写送入 CogVideoX-2B 生成视频
- VideoPhy2-AutoEval 评分（SA 5 级 + PC 5 级）
- 组内归一化优势 + 裁剪 PPO + KL 正则

训练策略¶

基础模型：Qwen2.5-Instruct（1.5B/3B/7B）
T2V 生成器完全冻结，只训练轻量重写器
衰减率 α 控制课程速度

实验关键数据¶

VideoPhy2 + CogVideoX-2B¶

方法	SA↑	PC↑	Joint↑
原始提示	43.4%	55.8%	32.2%
Promptist	41.2%	58.2%	30.2%
PhyT2V	45.0%	62.0%	36.2%
GPT-4o	47.0%	60.0%	37.0%
DeepSeek-V3 (671B)	48.4%	64.6%	38.6%
PhyPrompt-7B	47.8%	66.8%	40.8%

零样本迁移¶

生成器	原始	PhyPrompt-7B	提升
Lavie (860M)	29.2%	31.6%	+8.2%
VideoCrafter2 (1.2B)	29.8%	34.8%	+16.8%
CogVideoX-5B	39.4%	42.0%	+6.6%

消融实验¶

配置	Joint	说明
动态课程	40.8%	完整方法
静态奖励	~36%	固定权重
只优化 SA	~35%	SA 高但 PC 差
只优化 PC	~37%	PC 高但 SA 差
无 SFT 直接 GRPO	~35%	退化明显

关键发现¶

动态课程的超加性效应：Joint 40.8% > SA-only (~35%) 且 > PC-only (~37%)，证明渐进课程发现了两种单目标无法触及的提示结构
7B 模型超越 671B DeepSeek-V3，证明领域特化训练+直接任务反馈比规模扩展更高效
零样本迁移能力强，说明物理感知重写捕捉的是模型无关的物理先验
SFT 阶段必不可少——没有物理 CoT 预训练直接做 GRPO 效果差很多

亮点与洞察¶

动态课程发现超帕累托解：早期语义→晚期物理的渐进优化不是简单的权衡折衷，而是发现了新的组合提示结构——这个发现本身就有理论价值
重写器与生成器解耦是非常实用的设计：一个重写器服务多个后端，避免了对每个 T2V 模型微调的巨大成本
物理 CoT → RL 的两阶段管线可迁移到其他需要领域知识注入的 RL 场景

局限性 / 可改进方向¶

物理 CoT 数据集只有 160 个样本，覆盖的物理定律有限
训练时需要为每个候选重写生成视频并评分，计算成本高
VideoPhy2-AutoEval 的自动评分与人类判断可能不完全一致
仅测试简单物理场景（液体、碰撞），未涉及复杂多体动力学

评分¶

新颖性: ⭐⭐⭐⭐ 动态奖励课程的超加性发现是亮点
实验充分度: ⭐⭐⭐⭐⭐ 4 个生成器、多个基线、完整消融、零样本迁移验证
写作质量: ⭐⭐⭐⭐ 动机用倒酒例子说明非常直观
价值: ⭐⭐⭐⭐ 轻量级、模型无关的物理感知提示优化，实用性强