跳转至

Causal-PIK: Causality-based Physical Reasoning with a Physics-Informed Kernel

会议: ICML 2025
arXiv: 2505.22861
代码: 无
领域: 科学计算
关键词: 物理推理, 因果推理, 贝叶斯优化, 物理信息核函数, 主动探索

一句话总结

提出 Causal-PIK,通过将物理因果相似性编码为贝叶斯优化的核函数(Physics-Informed Kernel),使智能体在物理推理任务中仅需极少次尝试即可找到最优动作,在 Virtual Tools 和 PHYRE 基准上超越 SOTA。

研究背景与动机

物理推理任务要求智能体在未知动力学环境中,通过放置动作对象来达成目标(如让红球掉进绿色区域)。这类任务的核心挑战在于:

环境动力学未知:无法直接规划精确解,必须通过主动探索获取信息

因果推理需求:需要理解"动作 → 物体运动 → 结果"的因果链条

样本效率:实际交互代价高,需要尽可能少的尝试次数

现有方法不足: - 前向预测模型(世界模型)直接用动力学模型选择动作,但不利用历史失败经验 - SSUP 使用高斯混合模型引导,但未编码动作之间基于物理效果的关联 - RL 方法(如 DQN)缺乏物理直觉,探索效率低下

认知科学研究表明,人类通过构建物理世界的内部模型来解决此类问题:估计动作的因果效果,并快速从失败中学习。本文受此启发,将物理直觉融入贝叶斯优化框架。

方法详解

整体框架

Causal-PIK 采用贝叶斯优化(BO)框架,核心创新是用 Physics-Informed Kernel 替代标准 RBF 核,使高斯过程(GP)能够根据动作的物理因果效果来建模动作之间的相关性。

问题建模:考虑单次干预物理推理任务。智能体在初始状态 \(\bm{s}_0\) 下执行动作 \(\bm{x}\),观察 \(T\) 步环境演化后获得分数 \(y = f(\bm{x}) = \mathbb{S}(\mathbb{D}(\bm{s}_0, \bm{x}))\)。目标是以最少尝试次数最大化 \(f(\bm{x})\)

算法流程(Algorithm 1):

  1. GP 初始化:用 \(n_{initial}=9\) 个初始数据点构建 GP 先验。初始点从物体中心的高斯分布中采样,作为热身样本不计入尝试次数
  2. Physics-Informed GP 更新:用所有历史动作及其观测结果,通过 Physics-Informed Kernel 更新 GP 后验
  3. 因果引导的动作选择:用 UCB 采集函数从 Sobol 序列生成的 500 个候选动作中选出 top-5,再用概率物理引擎模拟这 5 个动作,选取预期结果最优的动作执行
  4. 动作执行与反馈:执行动作,观察结果。成功则终止,失败则将数据加入训练集,返回步骤 2

关键设计

1. Physics-Informed Kernel

核函数编码两类物理直觉:

(a)因果效果预测:训练动力学模型 \(\hat{\mathbb{D}}\) 预测动作对环境的因果效果。模型基于 Region Proposal Interaction Networks (RPIN) 架构,输入初始状态图像和动作,输出未来 \(n_{pred}=20\) 步的物体边界框。

(b)因果相似性计算:定义两个动作之间的因果相似性,捕捉它们对环境产生相似效果的程度。

首先定义因果效果向量。找到动作对象与动态物体首次交互的时间步 \(t_{event}\),计算物体 \(O\) 的状态变化:

\[\dot{\bm{s}}^O = \frac{\bm{s}_{(t_{event}+\Delta t)}^O - \bm{s}_{t_{event}}^O}{\Delta t}\]

然后,对于两个动作 \(a\)\(b\) 对物体 \(O\) 的效果,分别计算:

  • 方向相似性(余弦相似度):\(\text{sim}_{cos}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b}) = \frac{\dot{\bm{s}}^{O,a} \cdot \dot{\bm{s}}^{O,b}}{\|\dot{\bm{s}}^{O,a}\| \|\dot{\bm{s}}^{O,b}\|} \in [-1, 1]\)

  • 幅度相似性\(\text{sim}_{mag}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b}) = \frac{1}{1 + |\|\dot{\bm{s}}^{O,a}\| - \|\dot{\bm{s}}^{O,b}\||} \in [0, 1]\)

单物体相似性:

\[\text{sim}_{obj}(O,a,b) = \max[0, \text{sim}_{cos}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b}) \cdot \text{sim}_{mag}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b})] \in [0,1]\]

最终的因果相似性度量(对所有 \(D\) 个动态物体取平均并用指数加权):

\[\text{sim}_{csl}(a,b) = \frac{1}{D}\sum_{O=1}^{D}\text{sim}_{obj}(O,a,b) \cdot \exp\left(\frac{1}{D}\sum_{O=1}^{D}\text{sim}_{obj}(O,a,b) - 1\right)\]

核函数合法性证明\(\text{sim}_{csl}(a,b)\) 满足对称性和半正定性两个条件,是合法的核函数。

2. 因果引导的动作选择

采用 Upper Confidence Bound (UCB) 采集函数平衡探索与利用: - 用 Sobol 序列生成 \(n_{candidate}=500\) 个候选动作 - 对每个候选动作评估 UCB 值 - 选出 top-\(n_{best}=5\) 个动作,用概率物理引擎模拟其结果 - 选择预期结果最优的动作执行

3. 反事实基线

引入反事实推理来区分因果效果和环境动力学的混淆因素:不放置动作对象时的环境演化作为基线,用于归一化目标函数中的距离度量和因果相似性计算中的效果向量。

损失函数 / 训练策略

目标函数设计

\[f(\bm{x}) = \begin{cases} (1 - \frac{d_c}{\text{dist}(\bm{s}_0, \bm{s}_g)}) \cdot \exp(\beta \cdot d_c) & \text{if } d_c < \text{dist}(\bm{s}_0, \bm{s}_g) \\ 0 & \text{otherwise} \end{cases}\]

其中 \(d_c = \min_{t=1,...,T} \text{dist}(\bm{s}_t, \bm{s}_g)\) 是整个 episode 中任意时间步到目标状态的最近距离。关键洞察:衡量任意时间步的最近距离(而非仅最终时间步),对应"差一点就成功"的物理直觉。

动力学模型训练: - Virtual Tools:对 20 个原始拼图各生成 10 个变体,每个变体 300 个动作(≥50% 导致碰撞,10% 无动作基线) - PHYRE:10 折交叉验证,每折单独训练模型,每个拼图 500 个动作(350 失败 + 150 成功 + 50 无动作)

实验关键数据

主实验

Virtual Tools 基准(20 个拼图,100 次测试/拼图,最多 10 次尝试):

模型 AUCCESS ↑ 说明
RAND 16.0±20.0 随机基线
DQN 25.0±24.0 强化学习
SSUP 58.0±27.0 之前 SOTA
Ours (RBF) 42.0±33.0 消融:标准核
Ours (Causal-PIK) 65.0±25.0 +7 vs SSUP
Humans 53.25±23 人类基线

PHYRE-1B Cross 基准(25 个任务,10 折,最多 100 次尝试):

模型 AUCCESS ↑ 动作空间
RAND 13.0±5.0 完整(~255万)
Harter et al. 2020 30.2±48.9 完整
Ours (RBF) 27.7±9.68 完整
Ours (Causal-PIK) 41.6±9.33 完整
DQN 36.8±9.7 缩减(1万)
Ahmed et al. 2021 41.9±8.8 缩减(1万)
RPIN (Qi et al.) 42.2±7.1 缩减(1万)
Dec [Joint] 40.3±8 缩减(1千)
Humans @10 36.6±10.2 连续

消融实验

配置 Virtual Tools AUCCESS PHYRE AUCCESS 说明
Causal-PIK (完整) 65.0 41.6 完整方法
RBF Kernel 替换 42.0 27.7 标准核函数,性能大幅下降
高精度动力学模型 - 45.0 L2=3.56(在测试模板上训练)
标准动力学模型 - 41.6 L2=19.3±4.55(完全未见拼图)

关键发现

  1. Physics-Informed Kernel 是关键:将 PIK 替换为 RBF 核后,Virtual Tools 下降 23 点(65→42),PHYRE 下降 14 点(41.6→27.7),证明基于因果效果的核函数远优于几何距离的 RBF 核

  2. 在完整动作空间上达到缩减空间方法的水平:Causal-PIK 在 ~255 万动作空间上取得 41.6 AUCCESS,接近在 1 万动作空间上的 RPIN(42.2),问题难度差距巨大

  3. 对动力学预测噪声具有鲁棒性:即使动力学模型预测误差从 3.56 增大到 19.3(约 5.4 倍),AUCCESS 仅从 45 降至 41.6(-3.4 点),说明方法不依赖精确预测

  4. 与人类推理模式高度相关:在 PHYRE 上与人类的相关系数 \(r=0.73\)(所有模型中最高),表明 Causal-PIK 识别的难易问题模式与人类一致

  5. 超越人类表现:在 Virtual Tools 上 AUCCESS 65 vs 人类 53.25,在 PHYRE (100 attempts) 上 41.6 vs 人类 36.6

亮点与洞察

  1. 核函数设计的优雅性:将"物理因果效果"这一高层语义编码进核函数,而非直接用于动作选择,让 BO 框架自然完成探索-利用权衡。PIK 仅需方向相似性 × 幅度相似性的简洁乘积即可有效工作

  2. 从单次试验中获取多重信息:通过因果核函数,一次失败实验不仅更新该动作的预期,还间接更新所有预测会产生类似物理效果的动作的预期——这是传统 BO 做不到的

  3. "差一点成功"的目标函数:使用整个 episode 中任意时间步的最小距离(而非仅最终距离),巧妙捕捉了物理推理中的 near-miss 信号

  4. 反事实推理的引入帮助区分了真正的因果效果和环境自身动力学(如重力导致的自然下落),使核函数更精确

局限与展望

  1. 无跨任务知识迁移:当前每个任务独立求解,不利用相似任务的经验。未来可识别共享动力学结构的任务族,实现知识复用
  2. 动力学预测噪声:虽然对噪声有一定鲁棒性,但错误预测仍会引入误导性相似度。更好的动力学模型可进一步提升效果
  3. 三维动作空间限制:当前仅在 3D 动作空间上验证。扩展到更高维空间需要修改因果效果预测器,但核函数公式本身保持不变
  4. 依赖概率物理引擎:动作选择中的模拟步骤需要近似物理引擎,限制了对完全未知环境的适用性

相关工作与启发

  • RPIN (Qi et al., 2021):被用作动力学模型骨干网络。启发:物体级别的交互网络可有效捕捉局部物理动力学
  • SSUP (Allen et al., 2020):Virtual Tools 的前 SOTA,使用 GMM 引导搜索但不编码因果关联。启发:物理模拟只是近似,关键在于如何利用模拟信息
  • Li et al., 2022; 2024:分析 RL 在物理推理中的失败原因——缺乏物理属性理解。启发:单纯的状态-动作映射不足以解决需要物理直觉的任务
  • Gerstenberg & Tenenbaum, 2016:提出"差一点达到目标"的概念。启发:near-miss 信号对学习至关重要
  • 贝叶斯优化在机器人学中的应用:可自然扩展到 sim-to-real 场景

评分

维度 分数 (1-5) 说明
创新性 4 将因果推理编码为核函数的思路新颖优雅
理论深度 4 核函数的合法性证明严谨,反事实推理有深度
实验充分性 4 双基准测试 + 人类对比 + 消融 + 鲁棒性分析
实用价值 3 限于 2D 物理拼图场景,向真实机器人的迁移尚待验证
写作质量 4 方法阐述清晰,图表直观,与认知科学的联系有说服力
总评 4.0 优秀的方法论贡献,将因果推理与 BO 巧妙结合

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评

相关论文