ICPRL: Acquiring Physical Intuition from Interactive Control¶

日期: 2026-03-01
arXiv: 2603.13295
代码: 无
领域: 多模态VLM / 物理推理
关键词: physical reasoning, VLM, in-context RL, world model, GRPO

一句话总结¶

ICPRL 提出让 VLM 通过交互式试错获取物理直觉的框架：用多轮 GRPO 训练视觉策略模型从像素级交互历史中 in-context 适应，搭配世界模型做动作结果预测，通过 PUCT 搜索选最佳动作，在 DeepPHY 物理谜题上显著超越基线且在未见环境中保持泛化。

领域现状：VLM 在静态视觉感知上表现优异，但在需要与动态物理环境交互的推理任务上表现差——需要理解物理规律（重力、碰撞、摩擦）并据此规划动作。
现有痛点：(a) 现有物理推理方法多依赖抽象符号输入，不能从原始像素直接交互学习；(b) VLM 用 prompt engineering 做物理推理效果有限——没有从交互反馈中适应的机制；(c) 训练 VLM 做物理任务需要大量标注数据
核心矛盾：物理直觉需要通过"干了才知道"（试错）获得，而 VLM 是"看了就知道"（感知）的模型
切入角度：借鉴 In-Context RL——让模型在推理时通过上下文中的历史交互序列自适应策略
核心 idea：ICRL 训练策略模型 + 世界模型预测 + PUCT 搜索——策略从历史交互中学物理直觉，世界模型预判结果，搜索选最优动作

两阶段：(1) 训练策略模型（多轮 GRPO，输入多 episode 交互历史，输出动作）；(2) 训练世界模型（预测动作结果）。推理时策略提议候选动作，世界模型预测结果，用 PUCT 搜索选最优。

In-Context 策略学习（Multi-turn GRPO）
- 做什么：让策略模型从多 episode 交互历史中学习适应新物理环境
- 核心思路：将多次试错的 (观测, 动作, 结果) 序列作为上下文，用 GRPO 训练模型学会从这些"经验"中提取物理规律并改进策略
- 设计动机：零样本 VLM 无法理解新物理，但给它几次试错的经验后就能适应
世界模型（动作结果预测）
- 做什么：给定当前状态和候选动作，预测执行后的结果
- 核心思路：单独训练一个视觉模型，输入当前帧+动作描述，输出预测的下一帧/结果描述
- 设计动机：不用真正执行就能"想象"结果，减少实际交互次数
PUCT 搜索（推理时规划）
- 做什么：在候选动作中选最优
- 核心思路：策略模型提议 N 个候选动作，世界模型预测每个的结果，用 PUCT（类似 MCTS 的根节点搜索）综合动作先验和预测价值选择最优动作