跳转至

Training-free Generation of Temporally Consistent Rewards from VLMs

会议: ICCV 2025
arXiv: 2507.04789
代码: https://github.com/nuomizai/T2VLM
领域: 视频理解 / 机器人
关键词: 视觉语言模型, 奖励生成, 强化学习, 机器人操作, 贝叶斯跟踪

一句话总结

T²-VLM 提出了一种免训练、时间一致的奖励生成框架,通过仅在每个 episode 开始时查询一次 VLM 生成空间感知子目标,然后用贝叶斯粒子滤波跟踪子目标完成状态来生成结构化 RL 奖励,在机器人操作基准上达到 SOTA 且计算成本大幅降低。

研究背景与动机

领域现状:将视觉语言模型(VLM)用于具身智能任务是近年来的研究热点。VLM 在目标分解、视觉理解等方面能力强大,自然成为了给机器人操作任务设计奖励函数的候选工具。现有方法如 VLM-RM、CLIPScore 等尝试直接用 VLM 的输出作为 RL 的奖励信号。

现有痛点:直接用 VLM 给每一帧打分作为奖励存在三个关键问题:(1) 预训练数据缺乏机器人领域知识——VLM 在互联网数据上训练,对机器人操作场景的理解有限,给出的奖励不够准确;(2) 逐帧查询 VLM 计算成本极高——大型 VLM 的推理速度慢,实时性差;(3) 帧间奖励缺乏时间一致性——VLM 独立评估每一帧,可能在相邻帧给出矛盾的奖励(如上一帧判断完成了 50%,下一帧突然变成 30%),导致 RL 训练不稳定。

核心矛盾:VLM 具备强大的语义理解能力但缺乏机器人领域的精确感知能力,且逐帧调用的计算成本与 RL 训练的实时需求之间存在根本矛盾。

本文目标:设计一种方法,仅用一次 VLM 查询就能为整个 episode 提供准确、时间一致的奖励信号,不需要 fine-tune VLM,且计算开销极低。

切入角度:作者观察到,VLM 虽然不能精确评估每一帧的完成度,但擅长进行高层次的目标分解——将复杂任务拆解为若干子目标。如果能在 episode 开始时让 VLM 一次性给出子目标列表和初始完成估计,然后用轻量级的跟踪算法持续监控这些子目标的状态变化,就能以非常低的成本生成时间一致的奖励。

核心 idea:将奖励生成问题分解为两步——(1) VLM 做一次性的高层目标分解和初始化;(2) 贝叶斯粒子滤波器跟踪子目标状态变化并生成连续奖励。用 VLM 的语义理解能力做"规划",用经典的状态估计算法做"执行"。

方法详解

整体框架

T²-VLM 的输入是机器人操作环境的视觉观测序列和任务描述,输出是每个时间步的标量奖励。整个流程分为两个阶段:初始化阶段——在 episode 开始时,用 VLM 分析初始场景图像和任务描述,生成空间感知的子目标列表以及初始完成度估计;跟踪阶段——在后续时间步中,使用 SAM2 等追踪器跟踪子目标涉及的物体,用贝叶斯粒子滤波器更新各子目标的完成状态,将状态变化映射为奖励信号。

关键设计

  1. VLM 空间感知子目标生成:

    • 功能:将复杂的操作任务分解为可跟踪的子目标
    • 核心思路:向 VLM(如 GPT-4V)发送初始帧图像和任务描述(如"将红色方块放到蓝色盘子上"),通过精心设计的 prompt 引导 VLM 输出:(a) 子目标列表(如"抓起红色方块"、"移动到蓝色盘子上方"、"放下方块");(b) 每个子目标涉及的关键物体和空间关系;(c) 当前场景中各子目标的初始完成度估计(0-1 之间的数值)。关键在于 prompt 要求 VLM 给出空间化的描述(包含物体位置、相对关系),而非纯语义描述。
    • 设计动机:VLM 擅长语义理解和目标分解,但不擅长精确的空间感知和时序推理。因此让 VLM 只做它擅长的事——一次性的高层规划,把精确的状态跟踪交给专门的算法。
  2. SAM2 物体状态跟踪:

    • 功能:持续监控子目标涉及的物体的空间状态变化
    • 核心思路:根据 VLM 给出的子目标描述,自动识别需要跟踪的物体,用 SAM2(Segment Anything Model 2)在后续帧中跟踪这些物体的位置、大小和相对空间关系。从跟踪结果中提取子目标隐藏状态向量——编码了物体间的空间关系(如距离、接触状态等)。这些隐藏状态向量作为观测值输入贝叶斯滤波器。
    • 设计动机:SAM2 是零样本的视觉跟踪器,不需要训练即可跟踪几乎任何物体,与 T²-VLM 的免训练设计理念一致。用物体的空间关系变化来衡量子目标完成进度,比直接用 VLM 评估更精确、更快速。
  3. 贝叶斯粒子滤波奖励生成:

    • 功能:将物体状态变化转化为时间一致的奖励信号
    • 核心思路:用粒子滤波器维护每个子目标的完成度估计。VLM 给出的初始完成度用于初始化粒子分布。每个时间步,根据 SAM2 跟踪得到的隐藏状态更新粒子权重——如果物体空间关系朝着子目标完成方向变化(如物体间距离减小),则增大高完成度粒子的权重。最终的奖励 \(r_t = \Delta s_t = s_t - s_{t-1}\),即当前步的完成度增量。粒子滤波的平滑特性天然保证了奖励的时间一致性。
    • 设计动机:粒子滤波器是经典的贝叶斯状态估计方法,具有天然的时间平滑性——不会因为单帧的观测噪声就产生奖励跳变。这解决了 VLM 逐帧评估时奖励不一致的核心问题。

损失函数 / 训练策略

T²-VLM 本身不涉及训练。生成的奖励直接用于训练 RL 智能体(如 SAC),RL 的损失函数是标准的 actor-critic 损失。整个系统中唯一的"学习"发生在 RL 智能体端。

实验关键数据

主实验

在两个机器人操作基准(MetaWorld 和 RLBench)上的目标完成率对比:

方法 MetaWorld 平均完成率↑ RLBench 平均完成率↑ 每帧奖励计算时间↓ 是否需要训练
Sparse Reward 12.3% 8.7% -
VLM-RM 45.6% 34.2% 2.1s 需微调
VLM-Score 52.3% 38.8% 1.8s
LIV 48.9% 36.5% 0.9s 需训练
T²-VLM 61.7% 47.3% 0.05s

不同 VLM 骨干下的性能对比:

VLM 骨干 MetaWorld 完成率↑ 奖励准确度↑
GPT-4V 61.7% 0.82
LLaVA-1.5 55.2% 0.73
InternVL 57.8% 0.76

消融实验

配置 MetaWorld 完成率↑ 说明
Full T²-VLM 61.7% 完整模型
w/o 贝叶斯跟踪(每帧查询VLM) 52.3% 退化为 VLM-Score
w/o VLM 初始化(随机初始化粒子) 48.5% VLM 的先验估计很重要
w/o SAM2 跟踪(用简单模板匹配) 53.1% SAM2 的精准跟踪贡献显著
w/o 空间感知 prompt 55.4% 空间信息对子目标分解有帮助

关键发现

  • 贝叶斯粒子滤波是核心贡献,去掉后完成率从 61.7% 降到 52.3%(退化为逐帧 VLM 评估),说明时间一致性对 RL 训练至关重要
  • VLM 的初始化估计虽然不需要精确到每一帧,但为粒子滤波器提供了关键的先验分布信息,去掉后性能显著下降
  • 计算效率提升约 36 倍(0.05s vs 1.8s),因为只需 episode 开头查询一次 VLM,后续全部依赖轻量级跟踪
  • 在长视程任务(需要 5+ 个子目标的任务)上优势更明显,因为时间一致性在长任务中更重要
  • 对不同 VLM 骨干鲁棒——即使用较弱的 LLaVA 也能获得不错效果,说明方法不过度依赖 VLM 的能力

亮点与洞察

  • 分而治之的设计思想:巧妙地将 VLM 的语义规划能力和经典状态估计的时序推理能力结合。VLM 做一次性的高层规划,粒子滤波做持续的低层状态估计,各取所长。这种"一次规划 + 持续跟踪"的范式可以迁移到其他需要 VLM 参与的实时系统中。
  • 时间一致性的重要性:实验清楚地说明了奖励的时间一致性对 RL 训练的重要性。这是一个被忽视但关键的问题——奖励信号的噪声和不一致性会严重干扰 RL 的 credit assignment。
  • 计算效率的实用价值:将 VLM 调用从每帧降到每 episode 一次,使得在实际机器人系统中使用 VLM 奖励成为可能。

局限与展望

  • 依赖 VLM 能正确分解子目标——如果 VLM 对任务理解错误,整个系统会连锁失败
  • 粒子滤波的状态空间是手工设计的(物体间距离等),可能无法覆盖所有类型的子目标完成条件
  • 目前仅在模拟环境中验证,真实世界中 SAM2 的跟踪鲁棒性和 VLM 的场景理解能力可能不足
  • 每个 episode 开头的 VLM 查询仍有几秒延迟,对于需要快速启动的场景可能不够
  • 子目标之间的依赖关系(如顺序约束)未显式建模

相关工作与启发

  • vs VLM-RM (Rocamonde et al., 2024): VLM-RM 需要 fine-tune VLM 来提供奖励,成本高且泛化性低。T²-VLM 完全免训练,且通过粒子滤波保证时间一致性。
  • vs VLM-Score: VLM-Score 逐帧查询 VLM,计算成本高且奖励不一致。T²-VLM 只查询一次 VLM,靠跟踪算法给出一致奖励。
  • vs Eureka (Ma et al., 2024): Eureka 用 LLM 生成奖励代码,但需要环境的结构化状态信息。T²-VLM 直接从视觉观测出发,更适用于视觉 RL 场景。

评分

  • 新颖性: ⭐⭐⭐⭐ 将 VLM 规划与贝叶斯跟踪结合的思路新颖,但各组件都是已有技术的组合
  • 实验充分度: ⭐⭐⭐⭐ 两个 benchmark、多个基线、多种 VLM 骨干、详细消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,动机阐述充分
  • 价值: ⭐⭐⭐⭐ 显著降低了 VLM 奖励生成的计算成本,对具身 AI 领域有实际价值

相关论文