PhysVid: Physics Aware Local Conditioning for Generative Video¶
会议: CVPR 2026
arXiv: 2603.26285
代码: 项目页
领域: 视频生成 / 物理感知
关键词: 视频生成, 物理一致性, 局部条件化, 交叉注意力, 反事实引导
一句话总结¶
提出 PhysVid,一种物理感知的局部条件化方案——将视频分为时间片段(chunk),由 VLM 为每个 chunk 标注物理现象描述,通过 chunk 级交叉注意力注入生成模型;推理时引入"负物理提示"(反事实引导)引导生成远离物理违规,在 VideoPhy 上将物理常识分数提升约 33%。
研究背景与动机¶
生成式视频模型(如 Sora、Wan2.1)在视觉逼真度上取得了显著进步,但在物理一致性上仍有根本性缺陷——生成的视频经常违反基本物理定律(如物体穿模、重力异常、形变不合理等)。现有改进方案的局限:
全局文本提示太粗糙:标准 T2V 模型用同一文本条件化所有帧,无法捕捉局部时间段内的物理细节变化
帧级条件化太短视:逐帧控制的方法领域特定且缺乏跨帧物理连续性
全局增强提示仍不够:DiffPhy、PhyT2V 等方法用 LLM 增强全局提示中的物理信息,但无法保证模型在正确的时间段关注正确的物理线索
全局交叉注意力的根本缺陷:研究表明全局交叉注意力会产生几乎静态的注意力图,导致动作相关词汇的时间对齐失败
PhysVid 的核心洞察:物理现象是局部时间性的——运动、碰撞、光影变化发生在短时间段内,需要与之对齐的局部条件化。
方法详解¶
整体框架¶
PhysVid 在预训练 T2V 模型(Wan2.1-1.3B)基础上,插入 chunk 级交叉注意力层,实现全局+局部双路条件化。流程如下:
训练数据准备 → 视频分 chunk → VLM 标注 chunk 级物理描述
模型训练 → 冻结基模 → 训练 chunk 交叉注意力 → 解冻联合训练
推理 → LLM 从全局提示生成局部+反事实提示 → 双路 CFG 引导生成
关键设计¶
-
Chunk 级物理标注(数据准备)
- 将每个 5 秒训练视频(81 帧 @16fps)分为 7 个时间 chunk(约 0.7 秒/chunk)
- 使用 VideoLLama3-7B 分析每个 chunk 的可见物理现象
- VLM 被指导聚焦三类物理信息:动力学(运动、碰撞、加速度)、形状(形变、弯曲)、光学(反射、阴影、折射)
- 同时提供全局提示给 VLM 以确保局部标注与全局描述对齐
- 使用约束生成技术严格执行结构化输出格式
- 设计动机:不使用 WISA 数据集自带的全局物理标注,因为其与分割后的 5 秒片段可能不对齐
-
Chunk 感知交叉注意力(核心架构创新)
- 在预训练 Wan2.1 的每个 Transformer block 中插入新的 chunk 级交叉注意力层
- 视频 query token 通过 3D 时空 RoPE(帧、高、宽)调制
- 关键创新:也对文本 key 施加 RoPE,且定义了包含 chunk 轴 的文本网格
- 视频和文本使用相同的 RoPE 频率基,使注意力 logit 具有跨模态位置感知——视频 token 能区分来自不同 chunk 的文本信息
- 与标准 T2V 交叉注意力不同(文本 key 仅有 1D 位置编码,缺乏帧对齐耦合)
- 设计动机:让每个视频时间段只关注与其时间对齐的物理描述
-
训练策略(两阶段)
- 阶段 1(1000 步):冻结基模,仅训练新增 chunk 交叉注意力模块——使新模块稳定
- 阶段 2(2000 步):解冻基模,联合训练所有参数
- 4 GPU,有效 batch size 64
- 使用 flow matching 损失训练
-
反事实物理引导(推理创新)
- 局部提示生成:推理时仅有全局 T2V 提示(无视频可参考),用 LLM 从全局提示"想象"每个 chunk 的物理描述
- 反事实提示生成:LLM 识别每个局部物理提示中的关键视觉和物理元素,生成违反这些物理现象的反事实描述
- 双路 CFG 引导: $\(x_{T-1} = (1+w) \cdot \mathcal{G}(x_T, c_g, C, T) - w \cdot \mathcal{G}(x_T, c_n, C', T)\)$ 其中 \(C'\) 是反事实提示集合,\(c_n\) 是全局负向提示
- 设计动机:正向引导强化正确物理 + 负向引导推离违规物理 = 双重保障
损失函数 / 训练策略¶
- 使用与 Wan2.1 一致的 flow matching 目标训练
- 训练数据:WISA-80K 数据集处理后约 53K 视频样本(832×480,81 帧@16fps)
- 不使用 WISA 的自带物理标注,完全由 VLM 重新从视频中提取 chunk 级标注
实验关键数据¶
主实验¶
VideoPhy 基准
| 方法 | 参数量 | SA (语义对齐) | PC (物理常识) ↑ |
|---|---|---|---|
| Wan-1.3B | 1.3B | 0.46 | 0.24 |
| Wan-14B | 14B | 0.52 | 0.24 |
| PhysVid | 1.7B | 0.43 | 0.32 |
PhysVid 以仅 1.7B 参数在物理常识上超越 14B 模型,相对提升约 33%。
VideoPhy2 基准
| 方法 | 参数量 | SA | PC ↑ |
|---|---|---|---|
| Wan-1.3B | 1.3B | 0.28 | 0.61 |
| Wan-14B | 14B | 0.29 | 0.59 |
| PhysVid | 1.7B | 0.28 | 0.64 |
在 VideoPhy2 上相对 Wan-14B 提升约 8%。
与已有物理感知方法对比(VideoPhy)
| 方法 | 基模 | PC ↑ | 相对提升 |
|---|---|---|---|
| WISA | CogVideoX-5B | 0.38 | +15% |
| VideoREPA-5B | CogVideoX-5B | 0.40 | +29% |
| Hao et al. | Wan-14B | 0.40 | +14% |
| PhyT2V | CogVideoX-5B | 0.42 | +62% |
| PhysVid-1.7B | Wan-1.3B | 0.32 | +33% |
消融实验¶
| 方法 | VideoPhy PC ↑ | VideoPhy2 PC ↑ | 说明 |
|---|---|---|---|
| Wan-1.3B 基线 | 0.2401 | 0.6144 | 无任何改进 |
| 直接微调 | 0.2866 | 0.6261 | 使用 WISA 数据微调但无 chunk 架构 |
| PhysVid(无反事实引导) | 0.2924 | 0.6334 | 仅正向局部条件化 |
| PhysVid(完整) | 0.3169 | 0.6411 | 正向+反事实引导 |
关键发现¶
- 局部条件化 > 全局条件化:PhysVid 显著优于直接微调(使用同一数据但无 chunk 架构),证明物理信息的时间对齐至关重要
- 反事实引导有效:加入反事实负向提示使 PC 从 0.2924 提升到 0.3169
- 模型规模不等于物理能力:Wan-14B 尽管参数是 PhysVid 的 8 倍,物理常识分数却相同(0.24 vs 0.32)
- 语义对齐的代价:PhysVid 的 SA 分数略低于基线(0.43 vs 0.46),说明物理导向可能略微牺牲视觉美学
- 跨类别一致提升:在 solid-solid、solid-fluid、fluid-fluid 以及 object interaction、sports 等所有子类别上均有提升
亮点与洞察¶
- 局部时间粒度的物理条件化是正确方向:全局物理提示无法对齐到具体时间段,chunk 级设计优雅地解决了这一问题
- VLM 作为自动物理标注器:不依赖人工物理标注,完全由 VLM 从视频中提取物理信息,使方法可推广到任意数据集
- 反事实引导的巧妙设计:借鉴 CFG 的正负引导思路,但将其扩展到物理维度——生成"如果违反物理会怎样"的描述作为负向条件
- RoPE 跨模态对齐:在文本 key 上也施加视频对齐的 RoPE,使 chunk 边界在注意力计算中有明确的位置信号
- 以小博大:1.7B 参数模型在物理维度超越 14B 模型,说明架构设计比纯粹堆参数更重要
局限与展望¶
- 语义对齐下降:SA 分数从 0.46 降到 0.43,说明局部物理条件化可能干扰了全局语义生成
- 依赖 VLM 标注质量:chunk 级物理描述的准确性取决于 VideoLLama3-7B 的能力,更强的 VLM 可能带来更多提升
- 推理时 LLM 开销:推理需要 LLM 生成局部和反事实提示,增加了额外延迟和复杂性
- 训练数据 WISA 较窄:专注于物理现象数据,泛化到一般 T2V 场景的能力未验证
- 评估指标局限:VideoPhy 分数基于模仿人类判断的自动评估器,主观性强且可能有噪声
- 固定 chunk 大小:7 个等长 chunk 的划分可能不匹配所有物理事件的实际时间尺度
相关工作与启发¶
- 与 Hao et al. 的区别:Hao et al. 也用反事实引导但仅在全局级别;PhysVid 将其推进到 chunk 级别
- 与 WISA 的区别:WISA 用物理专家混合模块和物理分类器注入全局物理信息;PhysVid 用 VLM 自动提取并在局部注入
- 与 DiffPhy 的区别:DiffPhy 用 LLM 增强全局提示+MLLM 做物理监督;PhysVid 直接从视频中学习局部物理
- 世界模型启发:PhysVid 可视为迈向物理感知世界模拟器的一步——通过局部条件化让模型理解物理在时间上的展开
评分¶
- 新颖性: ⭐⭐⭐⭐ — Chunk 级物理条件化+反事实引导的组合方案新颖
- 实验充分度: ⭐⭐⭐⭐ — 两个基准、多子类别分析、完整消融
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,相关工作梳理全面
- 实用价值: ⭐⭐⭐⭐ — 架构兼容现有 T2V 模型,可扩展性好
相关论文¶
- [NeurIPS 2025] Spectral Conditioning of Attention Improves Transformer Performance
- [ECCV 2024] FunQA: Towards Surprising Video Comprehension
- [ICLR 2026] Generative Value Conflicts Reveal LLM Priorities
- [ICLR 2026] ConflictScope: Generative Value Conflicts Reveal LLM Priorities
- [ICLR 2026] Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards