T-Rex: Task-Adaptive Spatial Representation Extraction for Robotic Manipulation with VLMs¶

会议: NeurIPS 2025
arXiv: 2506.19498
代码: https://github.com/ (未提供)
领域: 多模态VLM / 机器人操作
关键词: VLM, 机器人操纵, 空间表示, 任务自适应, Chain of Grounding

一句话总结¶

提出T-Rex框架，根据任务复杂度动态选择最优的空间表示提取方案（点/向量/6D位姿），并设计Chain of Grounding (CoG)引导VLM逐步推理，实现无需训练的开放词汇机器人操纵。

视觉语言模型（VLM）因其从大规模数据中获得的丰富世界知识，正被越来越多地应用于机器人操纵任务。空间表示（如表示物体位置的点、表示物体朝向的向量）是连接VLM推理能力与真实世界场景的桥梁。

核心痛点：现有VLM引导的机器人方法（如ReKep、VoxPoser）采用固定的空间表示提取方案——不论任务简单还是复杂，都用同一种方式提取空间信息。这导致两个问题：

表示能力不足：简单的点表示无法处理需要物体朝向信息的任务（如"让毛绒玩具正面面对相机"）

提取时间过长：对只需质心点即可完成的简单任务也使用昂贵的6D位姿估计

核心矛盾：任务复杂度决定了所需空间表示的类型和粒度，而更强的表示能力通常意味着更高的系统运行成本。如何在表示能力和效率之间取得平衡？

本文切入角度：让VLM自己判断每个任务阶段中每个物体需要什么级别的空间表示，动态调用对应的提取工具。设计CoG方法显式引导VLM的分阶段推理过程，确保推理稳定性。

给定自然语言指令和场景观测，VLM通过CoG将指令分解为多阶段任务，为每个阶段的每个相关物体选择最优的空间表示提取方案，生成约束函数。底层动作序列生成器基于这些约束和追踪的空间表示生成机器人动作。

任务自适应异构空间表示提取：构建一个可扩展的空间表示提取工具箱（Toolkit），包含多种大视觉模型（如Grounding DINO用于关键点、FoundationPose用于6D位姿等）。每个工具定义为 \((I_i, o_i, f_i, s_i, h_i)\)，包含输入、输出类型、格式、实现摘要和历史平均执行时间。VLM根据任务和场景为每个物体选择最优工具：\(t_{s,o}^* = \arg\max_{t \in \mathcal{R}} [P_{\text{succ}}(t|I,X,s,o) - \lambda h_t]\)，在成功概率和提取成本间权衡。
任务自适应多粒度空间表示提取：当VLM判断某任务阶段需要更细粒度的空间表示时（如机器人狗的腿部朝向），触发"局部放大"策略：先用SAM分割目标物体区域，扩展padding后裁剪局部子图，再在子图上应用自适应提取。这种attention启发的zoom-in策略只在必要时激活，不增加简单任务的开销。
Chain of Grounding (CoG)：显式引导VLM的推理过程，分为四个顺序依赖阶段：
- 操作提示推理：将任务分解为多阶段，生成与表示无关的操作提示
- 约束推理：为每个提示推理所需的空间约束（自然语言形式）
- 工具选择：查询Toolkit Registry为每个物体选择最优提取工具
- 约束代码生成：将自然语言约束转换为可执行Python函数（返回标量cost）

T-Rex是zero-shot方法，无需任何训练。核心依赖VLM的推理能力（使用GPT-4.1）和预训练的视觉基础模型。约束函数以Python代码形式生成，通过数值优化器求解机器人动作序列。

15个真实世界开放词汇操纵任务（10次独立试验/任务）

任务	VoxPoser成功率	ReKep成功率	T-Rex成功率	T-Rex时间(s)
Open Drawer	4/10	2/10	6/10	14.3
Pour Water	0/10	3/10	7/10	24.1
Close Lid of Laptop	4/10	2/10	7/10	21.6
Setup: Tools Insert	0/10	3/10	7/10	56.3
Setup: Mixed	0/10	0/10	2/10	217.5
总计	30%	36.4%	60.7%	45.5