Training-free Generation of Temporally Consistent Rewards from VLMs¶
会议: ICCV 2025
arXiv: 2507.04789
代码: https://github.com/nuomizai/T2VLM
领域: 视频理解 / 机器人
关键词: 视觉语言模型, 奖励生成, 强化学习, 机器人操作, 贝叶斯跟踪
一句话总结¶
T²-VLM 提出了一种免训练、时间一致的奖励生成框架,通过仅在每个 episode 开始时查询一次 VLM 生成空间感知子目标,然后用贝叶斯粒子滤波跟踪子目标完成状态来生成结构化 RL 奖励,在机器人操作基准上达到 SOTA 且计算成本大幅降低。
研究背景与动机¶
领域现状:将视觉语言模型(VLM)用于具身智能任务是近年来的研究热点。VLM 在目标分解、视觉理解等方面能力强大,自然成为了给机器人操作任务设计奖励函数的候选工具。现有方法如 VLM-RM、CLIPScore 等尝试直接用 VLM 的输出作为 RL 的奖励信号。
现有痛点:直接用 VLM 给每一帧打分作为奖励存在三个关键问题:(1) 预训练数据缺乏机器人领域知识——VLM 在互联网数据上训练,对机器人操作场景的理解有限,给出的奖励不够准确;(2) 逐帧查询 VLM 计算成本极高——大型 VLM 的推理速度慢,实时性差;(3) 帧间奖励缺乏时间一致性——VLM 独立评估每一帧,可能在相邻帧给出矛盾的奖励(如上一帧判断完成了 50%,下一帧突然变成 30%),导致 RL 训练不稳定。
核心矛盾:VLM 具备强大的语义理解能力但缺乏机器人领域的精确感知能力,且逐帧调用的计算成本与 RL 训练的实时需求之间存在根本矛盾。
本文目标:设计一种方法,仅用一次 VLM 查询就能为整个 episode 提供准确、时间一致的奖励信号,不需要 fine-tune VLM,且计算开销极低。
切入角度:作者观察到,VLM 虽然不能精确评估每一帧的完成度,但擅长进行高层次的目标分解——将复杂任务拆解为若干子目标。如果能在 episode 开始时让 VLM 一次性给出子目标列表和初始完成估计,然后用轻量级的跟踪算法持续监控这些子目标的状态变化,就能以非常低的成本生成时间一致的奖励。
核心 idea:将奖励生成问题分解为两步——(1) VLM 做一次性的高层目标分解和初始化;(2) 贝叶斯粒子滤波器跟踪子目标状态变化并生成连续奖励。用 VLM 的语义理解能力做"规划",用经典的状态估计算法做"执行"。
方法详解¶
整体框架¶
T²-VLM 的输入是机器人操作环境的视觉观测序列和任务描述,输出是每个时间步的标量奖励。整个流程分为两个阶段:初始化阶段——在 episode 开始时,用 VLM 分析初始场景图像和任务描述,生成空间感知的子目标列表以及初始完成度估计;跟踪阶段——在后续时间步中,使用 SAM2 等追踪器跟踪子目标涉及的物体,用贝叶斯粒子滤波器更新各子目标的完成状态,将状态变化映射为奖励信号。
关键设计¶
-
VLM 空间感知子目标生成:
- 功能:将复杂的操作任务分解为可跟踪的子目标
- 核心思路:向 VLM(如 GPT-4V)发送初始帧图像和任务描述(如"将红色方块放到蓝色盘子上"),通过精心设计的 prompt 引导 VLM 输出:(a) 子目标列表(如"抓起红色方块"、"移动到蓝色盘子上方"、"放下方块");(b) 每个子目标涉及的关键物体和空间关系;(c) 当前场景中各子目标的初始完成度估计(0-1 之间的数值)。关键在于 prompt 要求 VLM 给出空间化的描述(包含物体位置、相对关系),而非纯语义描述。
- 设计动机:VLM 擅长语义理解和目标分解,但不擅长精确的空间感知和时序推理。因此让 VLM 只做它擅长的事——一次性的高层规划,把精确的状态跟踪交给专门的算法。
-
SAM2 物体状态跟踪:
- 功能:持续监控子目标涉及的物体的空间状态变化
- 核心思路:根据 VLM 给出的子目标描述,自动识别需要跟踪的物体,用 SAM2(Segment Anything Model 2)在后续帧中跟踪这些物体的位置、大小和相对空间关系。从跟踪结果中提取子目标隐藏状态向量——编码了物体间的空间关系(如距离、接触状态等)。这些隐藏状态向量作为观测值输入贝叶斯滤波器。
- 设计动机:SAM2 是零样本的视觉跟踪器,不需要训练即可跟踪几乎任何物体,与 T²-VLM 的免训练设计理念一致。用物体的空间关系变化来衡量子目标完成进度,比直接用 VLM 评估更精确、更快速。
-
贝叶斯粒子滤波奖励生成:
- 功能:将物体状态变化转化为时间一致的奖励信号
- 核心思路:用粒子滤波器维护每个子目标的完成度估计。VLM 给出的初始完成度用于初始化粒子分布。每个时间步,根据 SAM2 跟踪得到的隐藏状态更新粒子权重——如果物体空间关系朝着子目标完成方向变化(如物体间距离减小),则增大高完成度粒子的权重。最终的奖励 \(r_t = \Delta s_t = s_t - s_{t-1}\),即当前步的完成度增量。粒子滤波的平滑特性天然保证了奖励的时间一致性。
- 设计动机:粒子滤波器是经典的贝叶斯状态估计方法,具有天然的时间平滑性——不会因为单帧的观测噪声就产生奖励跳变。这解决了 VLM 逐帧评估时奖励不一致的核心问题。
损失函数 / 训练策略¶
T²-VLM 本身不涉及训练。生成的奖励直接用于训练 RL 智能体(如 SAC),RL 的损失函数是标准的 actor-critic 损失。整个系统中唯一的"学习"发生在 RL 智能体端。
实验关键数据¶
主实验¶
在两个机器人操作基准(MetaWorld 和 RLBench)上的目标完成率对比:
| 方法 | MetaWorld 平均完成率↑ | RLBench 平均完成率↑ | 每帧奖励计算时间↓ | 是否需要训练 |
|---|---|---|---|---|
| Sparse Reward | 12.3% | 8.7% | - | 否 |
| VLM-RM | 45.6% | 34.2% | 2.1s | 需微调 |
| VLM-Score | 52.3% | 38.8% | 1.8s | 否 |
| LIV | 48.9% | 36.5% | 0.9s | 需训练 |
| T²-VLM | 61.7% | 47.3% | 0.05s | 否 |
不同 VLM 骨干下的性能对比:
| VLM 骨干 | MetaWorld 完成率↑ | 奖励准确度↑ |
|---|---|---|
| GPT-4V | 61.7% | 0.82 |
| LLaVA-1.5 | 55.2% | 0.73 |
| InternVL | 57.8% | 0.76 |
消融实验¶
| 配置 | MetaWorld 完成率↑ | 说明 |
|---|---|---|
| Full T²-VLM | 61.7% | 完整模型 |
| w/o 贝叶斯跟踪(每帧查询VLM) | 52.3% | 退化为 VLM-Score |
| w/o VLM 初始化(随机初始化粒子) | 48.5% | VLM 的先验估计很重要 |
| w/o SAM2 跟踪(用简单模板匹配) | 53.1% | SAM2 的精准跟踪贡献显著 |
| w/o 空间感知 prompt | 55.4% | 空间信息对子目标分解有帮助 |
关键发现¶
- 贝叶斯粒子滤波是核心贡献,去掉后完成率从 61.7% 降到 52.3%(退化为逐帧 VLM 评估),说明时间一致性对 RL 训练至关重要
- VLM 的初始化估计虽然不需要精确到每一帧,但为粒子滤波器提供了关键的先验分布信息,去掉后性能显著下降
- 计算效率提升约 36 倍(0.05s vs 1.8s),因为只需 episode 开头查询一次 VLM,后续全部依赖轻量级跟踪
- 在长视程任务(需要 5+ 个子目标的任务)上优势更明显,因为时间一致性在长任务中更重要
- 对不同 VLM 骨干鲁棒——即使用较弱的 LLaVA 也能获得不错效果,说明方法不过度依赖 VLM 的能力
亮点与洞察¶
- 分而治之的设计思想:巧妙地将 VLM 的语义规划能力和经典状态估计的时序推理能力结合。VLM 做一次性的高层规划,粒子滤波做持续的低层状态估计,各取所长。这种"一次规划 + 持续跟踪"的范式可以迁移到其他需要 VLM 参与的实时系统中。
- 时间一致性的重要性:实验清楚地说明了奖励的时间一致性对 RL 训练的重要性。这是一个被忽视但关键的问题——奖励信号的噪声和不一致性会严重干扰 RL 的 credit assignment。
- 计算效率的实用价值:将 VLM 调用从每帧降到每 episode 一次,使得在实际机器人系统中使用 VLM 奖励成为可能。
局限与展望¶
- 依赖 VLM 能正确分解子目标——如果 VLM 对任务理解错误,整个系统会连锁失败
- 粒子滤波的状态空间是手工设计的(物体间距离等),可能无法覆盖所有类型的子目标完成条件
- 目前仅在模拟环境中验证,真实世界中 SAM2 的跟踪鲁棒性和 VLM 的场景理解能力可能不足
- 每个 episode 开头的 VLM 查询仍有几秒延迟,对于需要快速启动的场景可能不够
- 子目标之间的依赖关系(如顺序约束)未显式建模
相关工作与启发¶
- vs VLM-RM (Rocamonde et al., 2024): VLM-RM 需要 fine-tune VLM 来提供奖励,成本高且泛化性低。T²-VLM 完全免训练,且通过粒子滤波保证时间一致性。
- vs VLM-Score: VLM-Score 逐帧查询 VLM,计算成本高且奖励不一致。T²-VLM 只查询一次 VLM,靠跟踪算法给出一致奖励。
- vs Eureka (Ma et al., 2024): Eureka 用 LLM 生成奖励代码,但需要环境的结构化状态信息。T²-VLM 直接从视觉观测出发,更适用于视觉 RL 场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 VLM 规划与贝叶斯跟踪结合的思路新颖,但各组件都是已有技术的组合
- 实验充分度: ⭐⭐⭐⭐ 两个 benchmark、多个基线、多种 VLM 骨干、详细消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,动机阐述充分
- 价值: ⭐⭐⭐⭐ 显著降低了 VLM 奖励生成的计算成本,对具身 AI 领域有实际价值
相关论文¶
- [CVPR 2025] VideoGEM: Training-Free Action Grounding in Videos
- [CVPR 2025] Temporally Consistent Object-Centric Learning by Contrasting Slots
- [ICCV 2025] TOGA: Temporally Grounded Open-Ended Video QA with Weak Supervision
- [ICCV 2025] ResidualViT for Efficient Temporally Dense Video Encoding
- [CVPR 2026] Temporally Consistent Long-Term Memory for 3D Single Object Tracking