跳转至

GoalForce: Teaching Video Models to Accomplish Physics-Conditioned Goals

会议: CVPR 2026
arXiv: 2601.05848
代码: goal-force.github.io
领域: Video Understanding
关键词: Video Generation, Physics-Conditioned Goals, world model, Force Prompting, Causal Reasoning

一句话总结

提出 Goal Force 框架,通过多通道物理控制信号(目标力、直接力、质量)在简单合成数据上训练视频生成模型,使其学会从目标效果逆向规划因果链,实现零样本泛化到工具使用、人-物交互等复杂现实场景。

研究背景与动机

视频生成模型可作为"世界模型"进行规划和仿真,但现有目标指定方式存在局限: - 文本指令过于抽象,无法精确描述物理细节(足球运动员不只是"射门",而是要以特定力和角度踢球) - 目标图像往往难以获取或不切实际(无法渲染球入网的精确光照) - 现有力条件方法(PhysGen、Force Prompting)仅支持"直接力"(施加力→观察结果),无法进行"目标力"(指定期望结果→规划前因动作)

人类思考物理任务时的方式更接近目标力:罚球时想的不是精确的像素轨迹,而是赋予球特定的轨迹和速度。本文以此为灵感,提出从"指定效果"到"生成原因"的范式转变。

方法详解

整体框架

基于 Wan2.2(MoE 扩散模型)+ ControlNet 架构。核心创新是多通道物理控制信号和因果数据训练策略。

关键设计

  1. 三通道物理控制张量 \(\tilde{\pi} \in \mathbb{R}^{f \times 3 \times h \times w}\):

    • Channel 0(Direct Force):编码直接施加的力("原因"),用移动高斯 blob 表示,blob 的轨迹/持续时间与力向量成正比
    • Channel 1(Goal Force):编码期望的目标力("效果"),同样用移动高斯 blob 表示目标对象的期望运动
    • Channel 2(Mass):编码物体质量等物理属性,用静态高斯 blob 表示,半径与质量成正比,可选信号
  2. 通过隐式规划实现目标达成: 关键训练策略是随机遮蔽因果信息

    • 对有碰撞的视频,随机提供直接力(Ch0)或目标力(Ch1),将另一通道置零
    • 模型被迫学习双向推理:
      • Goal → Plan:给定目标力,推断并生成前因直接力事件
      • Action → Outcome:给定直接力,模拟碰撞结果
    • 质量通道也随机遮蔽,迫使模型在有/无质量信息时都能工作
  3. 合成训练数据(仅约 12k 视频):

    • 多米诺骨牌(3k):Blender 生成,直接力→链式反应→目标力
    • 滚动小球(6k):Blender 场景,4.5k 碰撞 + 1.5k 未碰撞
    • PhysDreamer 康乃馨(3k):非刚体动力学
  4. 架构细节: ControlNet 仅微调 High-Noise Expert(负责全局结构和低频动力学),克隆前 10 层 DiT,通过 zero-convolution 连接冻结的基础模型。仅 3000 步训练,4×A100 GPU,<48 小时。

损失函数 / 训练策略

  • 基于标准扩散损失训练 ControlNet
  • 训练视频:81 帧 @ 16 FPS
  • 关键:文本 prompt 设置语义上下文(如 "a pool table"),但不指定低级因果计划
  • 力和质量值采用相对归一化,无需绝对物理尺度

实验关键数据

主实验

人类研究(N=40,2AFC)对比 Goal Force vs. 纯文本基线:

基准类别 Force Adh. Realism Visual Qual.
两物体碰撞 73.4% 67.2% 66.0%
多物体碰撞 72.0% 69.0% 66.8%
人-物交互 70.5% 47.5% 48.9%
工具-物交互 74.5% 61.6% 58.7%

(表中百分比为 Goal Force 被偏好的比例)

物理规划准确率(50 次生成/场景):

场景 有效数 成功数 准确率
Pool 49 48 97.96%
Paper Balls 50 49 98.00%
Kitchen Lemon 50 50 100.00%
Coffee Cups 44 41 93.18%
Duckie 40 34 85.00%
Rubik's Cube 49 46 93.88%

随机基线最多 33.3%,模型远超此水平。

消融实验

规划多样性实验(6 块多米诺,5 个可选发起点):

分布 多样性得分 δ(p)
Goal Force 模型 0.6577
Unif{0..4}(最大多样性) 1.0000
Unif{0..1} 0.6042
确定性基线 0.3900

模型在多种有效计划间采样,避免模式坍塌。

质量感知实验:改变射弹和目标球的质量,模型正确调整射弹速度(in-distribution 场景满足 4/4 关系,out-of-distribution 场景满足 3/4)。

关键发现

  • 惊人的零样本泛化:仅在合成球、多米诺和一朵花上训练,却能泛化到高尔夫球杆击球、手拿玫瑰等复杂场景
  • 模型学会了通过茎而非花瓣拾取玫瑰,学会了选择未被障碍物阻挡的发起者
  • 文本 prompt 不足以指定目标力——纯文本的 fine-tuned 基线在 Force Adherence 上仍大幅落后
  • 先前的力条件方法(PhysGen、PhysDreamer、Force Prompting)将目标力误解为直接力,无法规划因果链

亮点与洞察

  1. 从"指定原因"到"指定效果"的范式转变深具启发性:Goal Force = 效果导向的规划,让模型自主推理因果链,而非被动执行指令
  2. 极简训练数据(~12k 合成视频)+ 极短训练时间(3000 步/<48h)就能涌现复杂规划能力,说明物理因果理解在给定正确归纳偏置后学习效率极高
  3. 多通道控制信号的设计优雅:将物理控制分解为原因/效果/属性三个正交维度,且通过随机遮蔽实现双向推理
  4. 隐式神经物理模拟器概念:模型不依赖外部物理引擎,在推理时充当近似的物理规划器

局限与展望

  • 力和质量使用相对归一化,无法跨域统一物理尺度
  • 训练数据仅覆盖简单碰撞和非刚体动力学,更复杂物理现象(流体、形变)的泛化未验证
  • 81 帧视频分辨率和长度有限,长时序因果链规划能力待探索
  • 人-物交互场景的 Motion Realism(47.5%)和 Visual Quality(48.9%)偏低,说明泛化到人体动作仍有挑战
  • 未探索与机器人控制的实际集成

相关工作与启发

  • 与 UniPi、Adapt2Act 等视频规划方法互补:Goal Force 提供了文本之外的物理目标指定方式
  • 合成简单数据训练 → 复杂泛化的范式可推广到其他需要物理理解的视频生成任务
  • Concurrent work(Learning 3D Trajectories、Freefall fine-tuning)侧重局部物理性质,Goal Force 关注因果交互链

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 从"施加力"到"目标力"的范式转变极具原创性
  • 实验充分度: ⭐⭐⭐⭐ — 人类研究 + 准确率 + 多样性 + 质量感知,验证全面
  • 写作质量: ⭐⭐⭐⭐⭐ — 足球罚球的类比精准,Fig.3 对比 direct vs. goal force 一目了然
  • 价值: ⭐⭐⭐⭐⭐ — 开辟了物理条件视频规划的新方向,潜在应用广泛

相关论文