Training-free Generation of Temporally Consistent Rewards from VLMs¶

会议: ICCV 2025
arXiv: 2507.04789
代码: https://github.com/nuomizai/T2VLM
领域: 视频理解 / 机器人
关键词: 视觉语言模型, 奖励生成, 强化学习, 机器人操作, 贝叶斯跟踪

一句话总结¶

T²-VLM 提出了一种免训练、时间一致的奖励生成框架，通过仅在每个 episode 开始时查询一次 VLM 生成空间感知子目标，然后用贝叶斯粒子滤波跟踪子目标完成状态来生成结构化 RL 奖励，在机器人操作基准上达到 SOTA 且计算成本大幅降低。

研究背景与动机¶

领域现状：将视觉语言模型（VLM）用于具身智能任务是近年来的研究热点。VLM 在目标分解、视觉理解等方面能力强大，自然成为了给机器人操作任务设计奖励函数的候选工具。现有方法如 VLM-RM、CLIPScore 等尝试直接用 VLM 的输出作为 RL 的奖励信号。

现有痛点：直接用 VLM 给每一帧打分作为奖励存在三个关键问题：(1) 预训练数据缺乏机器人领域知识——VLM 在互联网数据上训练，对机器人操作场景的理解有限，给出的奖励不够准确；(2) 逐帧查询 VLM 计算成本极高——大型 VLM 的推理速度慢，实时性差；(3) 帧间奖励缺乏时间一致性——VLM 独立评估每一帧，可能在相邻帧给出矛盾的奖励（如上一帧判断完成了 50%，下一帧突然变成 30%），导致 RL 训练不稳定。

核心矛盾：VLM 具备强大的语义理解能力但缺乏机器人领域的精确感知能力，且逐帧调用的计算成本与 RL 训练的实时需求之间存在根本矛盾。

本文目标：设计一种方法，仅用一次 VLM 查询就能为整个 episode 提供准确、时间一致的奖励信号，不需要 fine-tune VLM，且计算开销极低。

切入角度：作者观察到，VLM 虽然不能精确评估每一帧的完成度，但擅长进行高层次的目标分解——将复杂任务拆解为若干子目标。如果能在 episode 开始时让 VLM 一次性给出子目标列表和初始完成估计，然后用轻量级的跟踪算法持续监控这些子目标的状态变化，就能以非常低的成本生成时间一致的奖励。

核心 idea：将奖励生成问题分解为两步——(1) VLM 做一次性的高层目标分解和初始化；(2) 贝叶斯粒子滤波器跟踪子目标状态变化并生成连续奖励。用 VLM 的语义理解能力做"规划"，用经典的状态估计算法做"执行"。

方法详解¶

整体框架¶

T²-VLM 的输入是机器人操作环境的视觉观测序列和任务描述，输出是每个时间步的标量奖励。整个流程分为两个阶段：初始化阶段——在 episode 开始时，用 VLM 分析初始场景图像和任务描述，生成空间感知的子目标列表以及初始完成度估计；跟踪阶段——在后续时间步中，使用 SAM2 等追踪器跟踪子目标涉及的物体，用贝叶斯粒子滤波器更新各子目标的完成状态，将状态变化映射为奖励信号。

关键设计¶

VLM 空间感知子目标生成:
- 功能：将复杂的操作任务分解为可跟踪的子目标
- 核心思路：向 VLM（如 GPT-4V）发送初始帧图像和任务描述（如"将红色方块放到蓝色盘子上"），通过精心设计的 prompt 引导 VLM 输出：(a) 子目标列表（如"抓起红色方块"、"移动到蓝色盘子上方"、"放下方块"）；(b) 每个子目标涉及的关键物体和空间关系；(c) 当前场景中各子目标的初始完成度估计（0-1 之间的数值）。关键在于 prompt 要求 VLM 给出空间化的描述（包含物体位置、相对关系），而非纯语义描述。
- 设计动机：VLM 擅长语义理解和目标分解，但不擅长精确的空间感知和时序推理。因此让 VLM 只做它擅长的事——一次性的高层规划，把精确的状态跟踪交给专门的算法。
SAM2 物体状态跟踪:
- 功能：持续监控子目标涉及的物体的空间状态变化
- 核心思路：根据 VLM 给出的子目标描述，自动识别需要跟踪的物体，用 SAM2（Segment Anything Model 2）在后续帧中跟踪这些物体的位置、大小和相对空间关系。从跟踪结果中提取子目标隐藏状态向量——编码了物体间的空间关系（如距离、接触状态等）。这些隐藏状态向量作为观测值输入贝叶斯滤波器。
- 设计动机：SAM2 是零样本的视觉跟踪器，不需要训练即可跟踪几乎任何物体，与 T²-VLM 的免训练设计理念一致。用物体的空间关系变化来衡量子目标完成进度，比直接用 VLM 评估更精确、更快速。
贝叶斯粒子滤波奖励生成:
- 功能：将物体状态变化转化为时间一致的奖励信号
- 核心思路：用粒子滤波器维护每个子目标的完成度估计。VLM 给出的初始完成度用于初始化粒子分布。每个时间步，根据 SAM2 跟踪得到的隐藏状态更新粒子权重——如果物体空间关系朝着子目标完成方向变化（如物体间距离减小），则增大高完成度粒子的权重。最终的奖励 \(r_t = \Delta s_t = s_t - s_{t-1}\)，即当前步的完成度增量。粒子滤波的平滑特性天然保证了奖励的时间一致性。
- 设计动机：粒子滤波器是经典的贝叶斯状态估计方法，具有天然的时间平滑性——不会因为单帧的观测噪声就产生奖励跳变。这解决了 VLM 逐帧评估时奖励不一致的核心问题。

损失函数 / 训练策略¶

T²-VLM 本身不涉及训练。生成的奖励直接用于训练 RL 智能体（如 SAC），RL 的损失函数是标准的 actor-critic 损失。整个系统中唯一的"学习"发生在 RL 智能体端。

实验关键数据¶

主实验¶

在两个机器人操作基准（MetaWorld 和 RLBench）上的目标完成率对比：

方法	MetaWorld 平均完成率↑	RLBench 平均完成率↑	每帧奖励计算时间↓	是否需要训练
Sparse Reward	12.3%	8.7%	-	否
VLM-RM	45.6%	34.2%	2.1s	需微调
VLM-Score	52.3%	38.8%	1.8s	否
LIV	48.9%	36.5%	0.9s	需训练
T²-VLM	61.7%	47.3%	0.05s	否

不同 VLM 骨干下的性能对比：

VLM 骨干	MetaWorld 完成率↑	奖励准确度↑
GPT-4V	61.7%	0.82
LLaVA-1.5	55.2%	0.73
InternVL	57.8%	0.76

消融实验¶

配置	MetaWorld 完成率↑	说明
Full T²-VLM	61.7%	完整模型
w/o 贝叶斯跟踪（每帧查询VLM）	52.3%	退化为 VLM-Score
w/o VLM 初始化（随机初始化粒子）	48.5%	VLM 的先验估计很重要
w/o SAM2 跟踪（用简单模板匹配）	53.1%	SAM2 的精准跟踪贡献显著
w/o 空间感知 prompt	55.4%	空间信息对子目标分解有帮助

关键发现¶

贝叶斯粒子滤波是核心贡献，去掉后完成率从 61.7% 降到 52.3%（退化为逐帧 VLM 评估），说明时间一致性对 RL 训练至关重要
VLM 的初始化估计虽然不需要精确到每一帧，但为粒子滤波器提供了关键的先验分布信息，去掉后性能显著下降
计算效率提升约 36 倍（0.05s vs 1.8s），因为只需 episode 开头查询一次 VLM，后续全部依赖轻量级跟踪
在长视程任务（需要 5+ 个子目标的任务）上优势更明显，因为时间一致性在长任务中更重要
对不同 VLM 骨干鲁棒——即使用较弱的 LLaVA 也能获得不错效果，说明方法不过度依赖 VLM 的能力

亮点与洞察¶

分而治之的设计思想：巧妙地将 VLM 的语义规划能力和经典状态估计的时序推理能力结合。VLM 做一次性的高层规划，粒子滤波做持续的低层状态估计，各取所长。这种"一次规划 + 持续跟踪"的范式可以迁移到其他需要 VLM 参与的实时系统中。
时间一致性的重要性：实验清楚地说明了奖励的时间一致性对 RL 训练的重要性。这是一个被忽视但关键的问题——奖励信号的噪声和不一致性会严重干扰 RL 的 credit assignment。
计算效率的实用价值：将 VLM 调用从每帧降到每 episode 一次，使得在实际机器人系统中使用 VLM 奖励成为可能。

局限与展望¶

依赖 VLM 能正确分解子目标——如果 VLM 对任务理解错误，整个系统会连锁失败
粒子滤波的状态空间是手工设计的（物体间距离等），可能无法覆盖所有类型的子目标完成条件
目前仅在模拟环境中验证，真实世界中 SAM2 的跟踪鲁棒性和 VLM 的场景理解能力可能不足
每个 episode 开头的 VLM 查询仍有几秒延迟，对于需要快速启动的场景可能不够
子目标之间的依赖关系（如顺序约束）未显式建模

评分¶

新颖性: ⭐⭐⭐⭐ 将 VLM 规划与贝叶斯跟踪结合的思路新颖，但各组件都是已有技术的组合
实验充分度: ⭐⭐⭐⭐ 两个 benchmark、多个基线、多种 VLM 骨干、详细消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，动机阐述充分
价值: ⭐⭐⭐⭐ 显著降低了 VLM 奖励生成的计算成本，对具身 AI 领域有实际价值