SITCOM: Scaling Inference-Time COMpute for VLAs¶
会议: NeurIPS 2025
arXiv: 2510.04041
代码: 无
领域: 机器人
关键词: 推理时计算缩放, VLA, 世界模型, 模型预测控制, 机器人操纵
一句话总结¶
SITCOM 提出了一种受模型预测控制(MPC)启发的推理时计算框架,通过学习的动力学模型对预训练 VLA 进行多步rollout仿真并利用奖励模型选择最优轨迹,将单步 VLA 转化为鲁棒的长程规划器,在 SIMPLER 环境中将任务完成率从 48% 提升至 72%。
研究背景与动机¶
机器人学习长期受制于标注数据获取成本高、泛化能力有限和长程规划困难三大挑战。视觉-语言-动作(VLA)模型通过将自然语言指令落地为控制命令取得了显著进展,但它们在实际部署中仍面临关键局限:
缺乏前瞻能力:VLA 本质上是单步预测模型,无法评估动作的长期后果
累积误差:开环执行中小误差逐步累积,导致多步任务失败
动态环境适应性差:无法在执行过程中根据环境变化调整计划
现有解决方案要么通过链式思维(CoT)数据进行显式推理训练(依赖昂贵的标注),要么使用世界模型但通常计算开销大且任务特定性强。
SITCOM 的切入角度:将推理时计算缩放的理念从语言模型迁移到机器人控制——不改变训练范式,而是在推理时通过并行rollout和奖励排序来"思考更多"后再行动。这类似于 MPC 的思路:在每个决策步进行前瞻仿真、评估、选择。
方法详解¶
整体框架¶
SITCOM 的推理流程: 1. 候选生成:在每个决策步,使用高采样温度从 VLA 策略采样 n 个候选动作 2. Rollout 仿真:对每个候选动作,使用动力学模型预测下一状态图像,然后在该预测图像上继续用 VLA 采样动作,迭代 l 步生成完整轨迹 3. 奖励评估:对每条轨迹的最终状态计算奖励(包含夹爪-物体距离、物体-目标距离、抓取成功指示) 4. 轨迹选择与执行:选择最高奖励轨迹的动作序列在真实环境中执行 5. 重复:按环境的重规划频率循环直至任务完成
提供两种 rollout 模式: - SITCOM (EnvSim):使用环境实例进行 oracle rollout(作为上界) - SITCOM (Dynamics):使用学习的动力学模型进行 rollout(实际可部署方案)
关键设计¶
-
Transformer 动力学模型:采用编码器-解码器架构,编码器处理图像 patch 并与动作信息拼接,解码器预测下一帧图像的 patch。使用 L1 像素损失 + LPIPS 感知损失联合训练,平衡低层精度和高层视觉连贯性。两阶段训练策略:(1) 在约 25,000 条 BridgeV2 轨迹上预训练以学习通用动力学;(2) 在 SIMPLER 环境轨迹上微调以适配目标环境视觉和物理特性,弥合 Real2Sim 差距。
-
DAgger 风格适应策略:初始训练模型仅预测单步前一步时表现良好,但在多步 rollout 时因累积误差导致严重目标物重建问题。借鉴 DAgger 思想,在训练阶段让模型从自身预测结果出发进行多步预测(而非始终从真值出发),使训练分布与推理时的自回归分布更一致,显著减少了长程 rollout 中的预测漂移。
-
VLA 微调:由于 SIMPLER 环境无公开专家数据,自行策划了约 100 条专家轨迹:先用预训练模型生成轨迹 → 启发式规则筛选成功执行 → 人工过滤确保高质量。使用标准交叉熵损失对离散化动作 token 进行微调。
损失函数 / 训练策略¶
动力学模型使用 L1 + LPIPS 复合损失:L1 确保像素级精度,LPIPS 保证感知层面的视觉真实感。奖励设计包含三个信号:夹爪-物体间隙(引导接近)、物体-目标距离(引导放置)、抓取成功指标。
默认配置:rollout 长度 10 步,5 条候选轨迹。单次动作规划时间随候选数增加线性增长(5 候选约 35 秒,25 候选约 160 秒)。
实验关键数据¶
主实验 - SIMPLER 环境任务成功率¶
| 任务 | OpenVLA | OpenVLA-SFT | SITCOM (EnvSim) | SITCOM (World Model) |
|---|---|---|---|---|
| 放胡萝卜到盘子 | 0.0 | 0.50 | 0.71 | 0.66 |
| 放勺子到桌布 | 0.0 | 0.63 | 0.83 | 0.83 |
| 绿块叠黄块 | 0.042 | 0.17 | 0.58 | 0.62 |
| 放茄子到篮子 | 0.0 | 0.63 | 0.92 | 0.79 |
| 平均 | 0.01 | 0.48 | 0.76 | 0.72 |
动力学模型质量评估¶
| 模型 | FID↓ | OFL↓ |
|---|---|---|
| 基础模型 (仅BridgeV2) | 17.0 | 1.665 |
| 微调模型 | 11.2 | 0.992 |
消融实验 - 候选数量影响¶
| 候选数 | 1 | 5 | 10 | 15 | 20 | 25 |
|---|---|---|---|---|---|---|
| 规划时间(s) | 21 | 35 | 75 | 100 | 130 | 160 |
关键发现¶
- 推理时计算缩放在机器人控制中有效:从 OpenVLA-SFT 的 48% 提升到 SITCOM 的 72-76%
- 学习的动力学模型(72%)与 oracle 仿真器(76%)差距仅 4%,验证了方法的可行性
- VLA 微调本身就能从 1% 提升到 48%,解决了约 40% 的 Real2Sim 差距
- 增加候选数量持续带来收益直到 25 个(某些任务更早饱和)
- 复杂任务(如放茄子到篮子)从更长 rollout 中获益更多
- DAgger 式适应显著改善了长程 rollout 中的目标物重建质量,但预测漂移问题仍未完全解决
- 主要失败模式:VLA 的 Real2Sim 差距和精细操控能力不足(如夹爪闭合时机的微小偏差导致物体滑落)
亮点与洞察¶
- 核心思想简洁有力:将 LLM 领域的"推理时计算缩放"理念迁移到机器人控制,用更多计算换取更好决策
- MPC 风格的 rollout + 排序框架通用性强,可搭配任意 VLA 策略使用
- DAgger 式训练策略巧妙地解决了自回归预测的分布偏移问题
- 对失败模式的定性分析深入且诚实——清楚指出了精细操控和 Real2Sim 差距是主要瓶颈
- 两阶段动力学模型训练(大规模预训练 + 域内微调)是实用且可复制的方案
局限与展望¶
- 奖励信号依赖 oracle 仿真器状态(假设完美的环境知识),真实世界部署时需替换为学习的奖励模型
- 确定性动力学模型难以处理随机环境,未来可探索概率性动作条件视频扩散模型
- 推理时间瓶颈严重(5 候选需 35 秒),限制了实时控制频率
- 仅在模拟环境(SIMPLER)中验证,缺乏真实机器人实验
- 动力学模型仅用成功轨迹训练,对失败状态的预测不可靠
- rollout 长度需手动设定且不同任务最优值不同,缺乏自适应机制
相关工作与启发¶
- 与 CoT 推理(ECoT、零样本标注)的显式分解不同,SITCOM 通过隐式的仿真评估来进行长程推理
- 与 Dreamer、TD-MPC2 等世界模型方法相比,SITCOM 在像素空间预测但使用更轻量的 Transformer,平衡了视觉保真度和计算效率
- 与 GAIA-1、UniSim 等生成式视频模型相比,避免了昂贵的扩散架构
- 启发方向:结合动作分块(action chunking)减少推理调用次数;开发通用的基于视觉的奖励模型
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [NeurIPS 2025] AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling
- [CVPR 2026] Adaptive Action Chunking at Inference-time for Vision-Language-Action Models
- [ICLR 2026] PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra
- [NeurIPS 2025] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
- [NeurIPS 2025] T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with VLMs