Causal-PIK: Causality-based Physical Reasoning with a Physics-Informed Kernel¶
会议: ICML 2025
arXiv: 2505.22861
代码: 无
领域: 科学计算
关键词: 物理推理, 因果推理, 贝叶斯优化, 物理信息核函数, 主动探索
一句话总结¶
提出 Causal-PIK,通过将物理因果相似性编码为贝叶斯优化的核函数(Physics-Informed Kernel),使智能体在物理推理任务中仅需极少次尝试即可找到最优动作,在 Virtual Tools 和 PHYRE 基准上超越 SOTA。
研究背景与动机¶
物理推理任务要求智能体在未知动力学环境中,通过放置动作对象来达成目标(如让红球掉进绿色区域)。这类任务的核心挑战在于:
环境动力学未知:无法直接规划精确解,必须通过主动探索获取信息
因果推理需求:需要理解"动作 → 物体运动 → 结果"的因果链条
样本效率:实际交互代价高,需要尽可能少的尝试次数
现有方法不足: - 前向预测模型(世界模型)直接用动力学模型选择动作,但不利用历史失败经验 - SSUP 使用高斯混合模型引导,但未编码动作之间基于物理效果的关联 - RL 方法(如 DQN)缺乏物理直觉,探索效率低下
认知科学研究表明,人类通过构建物理世界的内部模型来解决此类问题:估计动作的因果效果,并快速从失败中学习。本文受此启发,将物理直觉融入贝叶斯优化框架。
方法详解¶
整体框架¶
Causal-PIK 采用贝叶斯优化(BO)框架,核心创新是用 Physics-Informed Kernel 替代标准 RBF 核,使高斯过程(GP)能够根据动作的物理因果效果来建模动作之间的相关性。
问题建模:考虑单次干预物理推理任务。智能体在初始状态 \(\bm{s}_0\) 下执行动作 \(\bm{x}\),观察 \(T\) 步环境演化后获得分数 \(y = f(\bm{x}) = \mathbb{S}(\mathbb{D}(\bm{s}_0, \bm{x}))\)。目标是以最少尝试次数最大化 \(f(\bm{x})\)。
算法流程(Algorithm 1):
- GP 初始化:用 \(n_{initial}=9\) 个初始数据点构建 GP 先验。初始点从物体中心的高斯分布中采样,作为热身样本不计入尝试次数
- Physics-Informed GP 更新:用所有历史动作及其观测结果,通过 Physics-Informed Kernel 更新 GP 后验
- 因果引导的动作选择:用 UCB 采集函数从 Sobol 序列生成的 500 个候选动作中选出 top-5,再用概率物理引擎模拟这 5 个动作,选取预期结果最优的动作执行
- 动作执行与反馈:执行动作,观察结果。成功则终止,失败则将数据加入训练集,返回步骤 2
关键设计¶
1. Physics-Informed Kernel¶
核函数编码两类物理直觉:
(a)因果效果预测:训练动力学模型 \(\hat{\mathbb{D}}\) 预测动作对环境的因果效果。模型基于 Region Proposal Interaction Networks (RPIN) 架构,输入初始状态图像和动作,输出未来 \(n_{pred}=20\) 步的物体边界框。
(b)因果相似性计算:定义两个动作之间的因果相似性,捕捉它们对环境产生相似效果的程度。
首先定义因果效果向量。找到动作对象与动态物体首次交互的时间步 \(t_{event}\),计算物体 \(O\) 的状态变化:
然后,对于两个动作 \(a\) 和 \(b\) 对物体 \(O\) 的效果,分别计算:
-
方向相似性(余弦相似度):\(\text{sim}_{cos}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b}) = \frac{\dot{\bm{s}}^{O,a} \cdot \dot{\bm{s}}^{O,b}}{\|\dot{\bm{s}}^{O,a}\| \|\dot{\bm{s}}^{O,b}\|} \in [-1, 1]\)
-
幅度相似性:\(\text{sim}_{mag}(\dot{\bm{s}}^{O,a}, \dot{\bm{s}}^{O,b}) = \frac{1}{1 + |\|\dot{\bm{s}}^{O,a}\| - \|\dot{\bm{s}}^{O,b}\||} \in [0, 1]\)
单物体相似性:
最终的因果相似性度量(对所有 \(D\) 个动态物体取平均并用指数加权):
核函数合法性证明:\(\text{sim}_{csl}(a,b)\) 满足对称性和半正定性两个条件,是合法的核函数。
2. 因果引导的动作选择¶
采用 Upper Confidence Bound (UCB) 采集函数平衡探索与利用: - 用 Sobol 序列生成 \(n_{candidate}=500\) 个候选动作 - 对每个候选动作评估 UCB 值 - 选出 top-\(n_{best}=5\) 个动作,用概率物理引擎模拟其结果 - 选择预期结果最优的动作执行
3. 反事实基线¶
引入反事实推理来区分因果效果和环境动力学的混淆因素:不放置动作对象时的环境演化作为基线,用于归一化目标函数中的距离度量和因果相似性计算中的效果向量。
损失函数 / 训练策略¶
目标函数设计:
其中 \(d_c = \min_{t=1,...,T} \text{dist}(\bm{s}_t, \bm{s}_g)\) 是整个 episode 中任意时间步到目标状态的最近距离。关键洞察:衡量任意时间步的最近距离(而非仅最终时间步),对应"差一点就成功"的物理直觉。
动力学模型训练: - Virtual Tools:对 20 个原始拼图各生成 10 个变体,每个变体 300 个动作(≥50% 导致碰撞,10% 无动作基线) - PHYRE:10 折交叉验证,每折单独训练模型,每个拼图 500 个动作(350 失败 + 150 成功 + 50 无动作)
实验关键数据¶
主实验¶
Virtual Tools 基准(20 个拼图,100 次测试/拼图,最多 10 次尝试):
| 模型 | AUCCESS ↑ | 说明 |
|---|---|---|
| RAND | 16.0±20.0 | 随机基线 |
| DQN | 25.0±24.0 | 强化学习 |
| SSUP | 58.0±27.0 | 之前 SOTA |
| Ours (RBF) | 42.0±33.0 | 消融:标准核 |
| Ours (Causal-PIK) | 65.0±25.0 | +7 vs SSUP |
| Humans | 53.25±23 | 人类基线 |
PHYRE-1B Cross 基准(25 个任务,10 折,最多 100 次尝试):
| 模型 | AUCCESS ↑ | 动作空间 |
|---|---|---|
| RAND | 13.0±5.0 | 完整(~255万) |
| Harter et al. 2020 | 30.2±48.9 | 完整 |
| Ours (RBF) | 27.7±9.68 | 完整 |
| Ours (Causal-PIK) | 41.6±9.33 | 完整 |
| DQN | 36.8±9.7 | 缩减(1万) |
| Ahmed et al. 2021 | 41.9±8.8 | 缩减(1万) |
| RPIN (Qi et al.) | 42.2±7.1 | 缩减(1万) |
| Dec [Joint] | 40.3±8 | 缩减(1千) |
| Humans @10 | 36.6±10.2 | 连续 |
消融实验¶
| 配置 | Virtual Tools AUCCESS | PHYRE AUCCESS | 说明 |
|---|---|---|---|
| Causal-PIK (完整) | 65.0 | 41.6 | 完整方法 |
| RBF Kernel 替换 | 42.0 | 27.7 | 标准核函数,性能大幅下降 |
| 高精度动力学模型 | - | 45.0 | L2=3.56(在测试模板上训练) |
| 标准动力学模型 | - | 41.6 | L2=19.3±4.55(完全未见拼图) |
关键发现¶
-
Physics-Informed Kernel 是关键:将 PIK 替换为 RBF 核后,Virtual Tools 下降 23 点(65→42),PHYRE 下降 14 点(41.6→27.7),证明基于因果效果的核函数远优于几何距离的 RBF 核
-
在完整动作空间上达到缩减空间方法的水平:Causal-PIK 在 ~255 万动作空间上取得 41.6 AUCCESS,接近在 1 万动作空间上的 RPIN(42.2),问题难度差距巨大
-
对动力学预测噪声具有鲁棒性:即使动力学模型预测误差从 3.56 增大到 19.3(约 5.4 倍),AUCCESS 仅从 45 降至 41.6(-3.4 点),说明方法不依赖精确预测
-
与人类推理模式高度相关:在 PHYRE 上与人类的相关系数 \(r=0.73\)(所有模型中最高),表明 Causal-PIK 识别的难易问题模式与人类一致
-
超越人类表现:在 Virtual Tools 上 AUCCESS 65 vs 人类 53.25,在 PHYRE (100 attempts) 上 41.6 vs 人类 36.6
亮点与洞察¶
-
核函数设计的优雅性:将"物理因果效果"这一高层语义编码进核函数,而非直接用于动作选择,让 BO 框架自然完成探索-利用权衡。PIK 仅需方向相似性 × 幅度相似性的简洁乘积即可有效工作
-
从单次试验中获取多重信息:通过因果核函数,一次失败实验不仅更新该动作的预期,还间接更新所有预测会产生类似物理效果的动作的预期——这是传统 BO 做不到的
-
"差一点成功"的目标函数:使用整个 episode 中任意时间步的最小距离(而非仅最终距离),巧妙捕捉了物理推理中的 near-miss 信号
-
反事实推理的引入帮助区分了真正的因果效果和环境自身动力学(如重力导致的自然下落),使核函数更精确
局限与展望¶
- 无跨任务知识迁移:当前每个任务独立求解,不利用相似任务的经验。未来可识别共享动力学结构的任务族,实现知识复用
- 动力学预测噪声:虽然对噪声有一定鲁棒性,但错误预测仍会引入误导性相似度。更好的动力学模型可进一步提升效果
- 三维动作空间限制:当前仅在 3D 动作空间上验证。扩展到更高维空间需要修改因果效果预测器,但核函数公式本身保持不变
- 依赖概率物理引擎:动作选择中的模拟步骤需要近似物理引擎,限制了对完全未知环境的适用性
相关工作与启发¶
- RPIN (Qi et al., 2021):被用作动力学模型骨干网络。启发:物体级别的交互网络可有效捕捉局部物理动力学
- SSUP (Allen et al., 2020):Virtual Tools 的前 SOTA,使用 GMM 引导搜索但不编码因果关联。启发:物理模拟只是近似,关键在于如何利用模拟信息
- Li et al., 2022; 2024:分析 RL 在物理推理中的失败原因——缺乏物理属性理解。启发:单纯的状态-动作映射不足以解决需要物理直觉的任务
- Gerstenberg & Tenenbaum, 2016:提出"差一点达到目标"的概念。启发:near-miss 信号对学习至关重要
- 贝叶斯优化在机器人学中的应用:可自然扩展到 sim-to-real 场景
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 4 | 将因果推理编码为核函数的思路新颖优雅 |
| 理论深度 | 4 | 核函数的合法性证明严谨,反事实推理有深度 |
| 实验充分性 | 4 | 双基准测试 + 人类对比 + 消融 + 鲁棒性分析 |
| 实用价值 | 3 | 限于 2D 物理拼图场景,向真实机器人的迁移尚待验证 |
| 写作质量 | 4 | 方法阐述清晰,图表直观,与认知科学的联系有说服力 |
| 总评 | 4.0 | 优秀的方法论贡献,将因果推理与 BO 巧妙结合 |
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [NeurIPS 2025] Neuro-Spectral Architectures for Causal Physics-Informed Networks
- [ICML 2025] Differentiable Stellar Atmospheres with Physics-Informed Neural Networks
- [NeurIPS 2025] Physics-Informed Neural Networks with Fourier Features and Attention-Driven Decoding
- [NeurIPS 2025] DeltaPhi: Physical States Residual Learning for Neural Operators in Data-Limited PDE Solving
- [ICLR 2026] Astral: Training Physics-Informed Neural Networks with Error Majorants