PhysVid: Physics Aware Local Conditioning for Generative Video¶

会议: CVPR 2026
arXiv: 2603.26285
代码: 项目页
领域: 视频生成 / 物理感知
关键词: 视频生成, 物理一致性, 局部条件化, 交叉注意力, 反事实引导

一句话总结¶

提出 PhysVid，一种物理感知的局部条件化方案——将视频分为时间片段（chunk），由 VLM 为每个 chunk 标注物理现象描述，通过 chunk 级交叉注意力注入生成模型；推理时引入"负物理提示"（反事实引导）引导生成远离物理违规，在 VideoPhy 上将物理常识分数提升约 33%。

研究背景与动机¶

生成式视频模型（如 Sora、Wan2.1）在视觉逼真度上取得了显著进步，但在物理一致性上仍有根本性缺陷——生成的视频经常违反基本物理定律（如物体穿模、重力异常、形变不合理等）。现有改进方案的局限：

全局文本提示太粗糙：标准 T2V 模型用同一文本条件化所有帧，无法捕捉局部时间段内的物理细节变化

帧级条件化太短视：逐帧控制的方法领域特定且缺乏跨帧物理连续性

全局增强提示仍不够：DiffPhy、PhyT2V 等方法用 LLM 增强全局提示中的物理信息，但无法保证模型在正确的时间段关注正确的物理线索

全局交叉注意力的根本缺陷：研究表明全局交叉注意力会产生几乎静态的注意力图，导致动作相关词汇的时间对齐失败

PhysVid 的核心洞察：物理现象是局部时间性的——运动、碰撞、光影变化发生在短时间段内，需要与之对齐的局部条件化。

方法详解¶

整体框架¶

PhysVid 在预训练 T2V 模型（Wan2.1-1.3B）基础上，插入 chunk 级交叉注意力层，实现全局+局部双路条件化。流程如下：

训练数据准备 → 视频分 chunk → VLM 标注 chunk 级物理描述
模型训练 → 冻结基模 → 训练 chunk 交叉注意力 → 解冻联合训练
推理 → LLM 从全局提示生成局部+反事实提示 → 双路 CFG 引导生成

关键设计¶

Chunk 级物理标注（数据准备）
- 将每个 5 秒训练视频（81 帧 @16fps）分为 7 个时间 chunk（约 0.7 秒/chunk）
- 使用 VideoLLama3-7B 分析每个 chunk 的可见物理现象
- VLM 被指导聚焦三类物理信息：动力学（运动、碰撞、加速度）、形状（形变、弯曲）、光学（反射、阴影、折射）
- 同时提供全局提示给 VLM 以确保局部标注与全局描述对齐
- 使用约束生成技术严格执行结构化输出格式
- 设计动机：不使用 WISA 数据集自带的全局物理标注，因为其与分割后的 5 秒片段可能不对齐
Chunk 感知交叉注意力（核心架构创新）
- 在预训练 Wan2.1 的每个 Transformer block 中插入新的 chunk 级交叉注意力层
- 视频 query token 通过 3D 时空 RoPE（帧、高、宽）调制
- 关键创新：也对文本 key 施加 RoPE，且定义了包含 chunk 轴 的文本网格
- 视频和文本使用相同的 RoPE 频率基，使注意力 logit 具有跨模态位置感知——视频 token 能区分来自不同 chunk 的文本信息
- 与标准 T2V 交叉注意力不同（文本 key 仅有 1D 位置编码，缺乏帧对齐耦合）
- 设计动机：让每个视频时间段只关注与其时间对齐的物理描述
训练策略（两阶段）
- 阶段 1（1000 步）：冻结基模，仅训练新增 chunk 交叉注意力模块——使新模块稳定
- 阶段 2（2000 步）：解冻基模，联合训练所有参数
- 4 GPU，有效 batch size 64
- 使用 flow matching 损失训练
反事实物理引导（推理创新）
- 局部提示生成：推理时仅有全局 T2V 提示（无视频可参考），用 LLM 从全局提示"想象"每个 chunk 的物理描述
- 反事实提示生成：LLM 识别每个局部物理提示中的关键视觉和物理元素，生成违反这些物理现象的反事实描述
- 双路 CFG 引导： $$x_{T-1} = (1+w) \cdot \mathcal{G}(x_T, c_g, C, T) - w \cdot \mathcal{G}(x_T, c_n, C', T)$$ 其中 $C'$ 是反事实提示集合，$c_n$ 是全局负向提示
- 设计动机：正向引导强化正确物理 + 负向引导推离违规物理 = 双重保障

损失函数 / 训练策略¶

使用与 Wan2.1 一致的 flow matching 目标训练
训练数据：WISA-80K 数据集处理后约 53K 视频样本（832×480，81 帧@16fps）
不使用 WISA 的自带物理标注，完全由 VLM 重新从视频中提取 chunk 级标注

实验关键数据¶

主实验¶

VideoPhy 基准

方法	参数量	SA (语义对齐)	PC (物理常识) ↑
Wan-1.3B	1.3B	0.46	0.24
Wan-14B	14B	0.52	0.24
PhysVid	1.7B	0.43	0.32

PhysVid 以仅 1.7B 参数在物理常识上超越 14B 模型，相对提升约 33%。

VideoPhy2 基准

方法	参数量	SA	PC ↑
Wan-1.3B	1.3B	0.28	0.61
Wan-14B	14B	0.29	0.59
PhysVid	1.7B	0.28	0.64

在 VideoPhy2 上相对 Wan-14B 提升约 8%。

与已有物理感知方法对比（VideoPhy）

方法	基模	PC ↑	相对提升
WISA	CogVideoX-5B	0.38	+15%
VideoREPA-5B	CogVideoX-5B	0.40	+29%
Hao et al.	Wan-14B	0.40	+14%
PhyT2V	CogVideoX-5B	0.42	+62%
PhysVid-1.7B	Wan-1.3B	0.32	+33%

消融实验¶

方法	VideoPhy PC ↑	VideoPhy2 PC ↑	说明
Wan-1.3B 基线	0.2401	0.6144	无任何改进
直接微调	0.2866	0.6261	使用 WISA 数据微调但无 chunk 架构
PhysVid（无反事实引导）	0.2924	0.6334	仅正向局部条件化
PhysVid（完整）	0.3169	0.6411	正向+反事实引导

关键发现¶

局部条件化 > 全局条件化：PhysVid 显著优于直接微调（使用同一数据但无 chunk 架构），证明物理信息的时间对齐至关重要
反事实引导有效：加入反事实负向提示使 PC 从 0.2924 提升到 0.3169
模型规模不等于物理能力：Wan-14B 尽管参数是 PhysVid 的 8 倍，物理常识分数却相同（0.24 vs 0.32）
语义对齐的代价：PhysVid 的 SA 分数略低于基线（0.43 vs 0.46），说明物理导向可能略微牺牲视觉美学
跨类别一致提升：在 solid-solid、solid-fluid、fluid-fluid 以及 object interaction、sports 等所有子类别上均有提升

亮点与洞察¶

局部时间粒度的物理条件化是正确方向：全局物理提示无法对齐到具体时间段，chunk 级设计优雅地解决了这一问题
VLM 作为自动物理标注器：不依赖人工物理标注，完全由 VLM 从视频中提取物理信息，使方法可推广到任意数据集
反事实引导的巧妙设计：借鉴 CFG 的正负引导思路，但将其扩展到物理维度——生成"如果违反物理会怎样"的描述作为负向条件
RoPE 跨模态对齐：在文本 key 上也施加视频对齐的 RoPE，使 chunk 边界在注意力计算中有明确的位置信号
以小博大：1.7B 参数模型在物理维度超越 14B 模型，说明架构设计比纯粹堆参数更重要

局限与展望¶

语义对齐下降：SA 分数从 0.46 降到 0.43，说明局部物理条件化可能干扰了全局语义生成
依赖 VLM 标注质量：chunk 级物理描述的准确性取决于 VideoLLama3-7B 的能力，更强的 VLM 可能带来更多提升
推理时 LLM 开销：推理需要 LLM 生成局部和反事实提示，增加了额外延迟和复杂性
训练数据 WISA 较窄：专注于物理现象数据，泛化到一般 T2V 场景的能力未验证
评估指标局限：VideoPhy 分数基于模仿人类判断的自动评估器，主观性强且可能有噪声
固定 chunk 大小：7 个等长 chunk 的划分可能不匹配所有物理事件的实际时间尺度

评分¶

新颖性: ⭐⭐⭐⭐ — Chunk 级物理条件化+反事实引导的组合方案新颖
实验充分度: ⭐⭐⭐⭐ — 两个基准、多子类别分析、完整消融
写作质量: ⭐⭐⭐⭐ — 结构清晰，相关工作梳理全面
实用价值: ⭐⭐⭐⭐ — 架构兼容现有 T2V 模型，可扩展性好