GoalForce: Teaching Video Models to Accomplish Physics-Conditioned Goals¶

会议: CVPR 2026
arXiv: 2601.05848
代码: goal-force.github.io
领域: Video Understanding
关键词: Video Generation, Physics-Conditioned Goals, world model, Force Prompting, Causal Reasoning

一句话总结¶

提出 Goal Force 框架，通过多通道物理控制信号（目标力、直接力、质量）在简单合成数据上训练视频生成模型，使其学会从目标效果逆向规划因果链，实现零样本泛化到工具使用、人-物交互等复杂现实场景。

研究背景与动机¶

视频生成模型可作为"世界模型"进行规划和仿真，但现有目标指定方式存在局限： - 文本指令过于抽象，无法精确描述物理细节（足球运动员不只是"射门"，而是要以特定力和角度踢球） - 目标图像往往难以获取或不切实际（无法渲染球入网的精确光照） - 现有力条件方法（PhysGen、Force Prompting）仅支持"直接力"（施加力→观察结果），无法进行"目标力"（指定期望结果→规划前因动作）

人类思考物理任务时的方式更接近目标力：罚球时想的不是精确的像素轨迹，而是赋予球特定的轨迹和速度。本文以此为灵感，提出从"指定效果"到"生成原因"的范式转变。

方法详解¶

整体框架¶

基于 Wan2.2（MoE 扩散模型）+ ControlNet 架构。核心创新是多通道物理控制信号和因果数据训练策略。

关键设计¶

三通道物理控制张量 \(\tilde{\pi} \in \mathbb{R}^{f \times 3 \times h \times w}\):
- Channel 0（Direct Force）：编码直接施加的力（"原因"），用移动高斯 blob 表示，blob 的轨迹/持续时间与力向量成正比
- Channel 1（Goal Force）：编码期望的目标力（"效果"），同样用移动高斯 blob 表示目标对象的期望运动
- Channel 2（Mass）：编码物体质量等物理属性，用静态高斯 blob 表示，半径与质量成正比，可选信号
通过隐式规划实现目标达成: 关键训练策略是随机遮蔽因果信息：
- 对有碰撞的视频，随机提供直接力（Ch0）或目标力（Ch1），将另一通道置零
- 模型被迫学习双向推理：
  - Goal → Plan：给定目标力，推断并生成前因直接力事件
  - Action → Outcome：给定直接力，模拟碰撞结果
- 质量通道也随机遮蔽，迫使模型在有/无质量信息时都能工作
合成训练数据（仅约 12k 视频）：
- 多米诺骨牌（3k）：Blender 生成，直接力→链式反应→目标力
- 滚动小球（6k）：Blender 场景，4.5k 碰撞 + 1.5k 未碰撞
- PhysDreamer 康乃馨（3k）：非刚体动力学
架构细节: ControlNet 仅微调 High-Noise Expert（负责全局结构和低频动力学），克隆前 10 层 DiT，通过 zero-convolution 连接冻结的基础模型。仅 3000 步训练，4×A100 GPU，<48 小时。

损失函数 / 训练策略¶

基于标准扩散损失训练 ControlNet
训练视频：81 帧 @ 16 FPS
关键：文本 prompt 设置语义上下文（如 "a pool table"），但不指定低级因果计划
力和质量值采用相对归一化，无需绝对物理尺度

实验关键数据¶

主实验¶

人类研究（N=40，2AFC）对比 Goal Force vs. 纯文本基线：

基准类别	Force Adh.	Realism	Visual Qual.
两物体碰撞	73.4%	67.2%	66.0%
多物体碰撞	72.0%	69.0%	66.8%
人-物交互	70.5%	47.5%	48.9%
工具-物交互	74.5%	61.6%	58.7%

（表中百分比为 Goal Force 被偏好的比例）

物理规划准确率（50 次生成/场景）：

场景	有效数	成功数	准确率
Pool	49	48	97.96%
Paper Balls	50	49	98.00%
Kitchen Lemon	50	50	100.00%
Coffee Cups	44	41	93.18%
Duckie	40	34	85.00%
Rubik's Cube	49	46	93.88%

随机基线最多 33.3%，模型远超此水平。

消融实验¶

规划多样性实验（6 块多米诺，5 个可选发起点）：

分布	多样性得分 δ(p)
Goal Force 模型	0.6577
Unif{0..4}（最大多样性）	1.0000
Unif{0..1}	0.6042
确定性基线	0.3900

模型在多种有效计划间采样，避免模式坍塌。

质量感知实验：改变射弹和目标球的质量，模型正确调整射弹速度（in-distribution 场景满足 4/4 关系，out-of-distribution 场景满足 3/4）。

关键发现¶

惊人的零样本泛化：仅在合成球、多米诺和一朵花上训练，却能泛化到高尔夫球杆击球、手拿玫瑰等复杂场景
模型学会了通过茎而非花瓣拾取玫瑰，学会了选择未被障碍物阻挡的发起者
文本 prompt 不足以指定目标力——纯文本的 fine-tuned 基线在 Force Adherence 上仍大幅落后
先前的力条件方法（PhysGen、PhysDreamer、Force Prompting）将目标力误解为直接力，无法规划因果链

亮点与洞察¶

从"指定原因"到"指定效果"的范式转变深具启发性：Goal Force = 效果导向的规划，让模型自主推理因果链，而非被动执行指令
极简训练数据（~12k 合成视频）+ 极短训练时间（3000 步/<48h）就能涌现复杂规划能力，说明物理因果理解在给定正确归纳偏置后学习效率极高
多通道控制信号的设计优雅：将物理控制分解为原因/效果/属性三个正交维度，且通过随机遮蔽实现双向推理
隐式神经物理模拟器概念：模型不依赖外部物理引擎，在推理时充当近似的物理规划器

局限与展望¶

力和质量使用相对归一化，无法跨域统一物理尺度
训练数据仅覆盖简单碰撞和非刚体动力学，更复杂物理现象（流体、形变）的泛化未验证
81 帧视频分辨率和长度有限，长时序因果链规划能力待探索
人-物交互场景的 Motion Realism（47.5%）和 Visual Quality（48.9%）偏低，说明泛化到人体动作仍有挑战
未探索与机器人控制的实际集成

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 从"施加力"到"目标力"的范式转变极具原创性
实验充分度: ⭐⭐⭐⭐ — 人类研究 + 准确率 + 多样性 + 质量感知，验证全面
写作质量: ⭐⭐⭐⭐⭐ — 足球罚球的类比精准，Fig.3 对比 direct vs. goal force 一目了然
价值: ⭐⭐⭐⭐⭐ — 开辟了物理条件视频规划的新方向，潜在应用广泛