跳转至

ReMoT: Reinforcement Learning with Motion Contrast Triplets

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 自动驾驶 / 视觉语言模型
关键词: 运动对比三元组, 时空推理, GRPO, VLM, 强化学习

一句话总结

提出 ReMoT 统一训练范式,通过规则驱动的多专家协作管线自动构建 16.5K 运动对比三元组数据集 (ReMoT-16K),并结合 GRPO 强化学习与复合奖励(逻辑一致性+长度正则化),系统性解决 VLM 在时空一致性推理上的根本缺陷,实现 25.1% 的性能提升。

研究背景与动机

领域现状:视觉语言模型 (VLM) 如 GPT-4o、Claude、Gemini、Qwen 等已发展为通用感知系统,在静态图像理解和语义对齐上表现出色,并被部署于 AIGC、具身智能和自动驾驶等关键领域。

现有痛点:(1) 当前主流 VLM 在时空一致性推理上存在根本缺陷——频繁混淆相机旋转与物体运动、误判夹爪状态、错误推断运动方向;(2) 现有训练数据以静态图像-文本对为主,缺乏对细粒度运动属性的显式建模;(3) 架构修改或数据增强等方法只能提供零星修补,无法系统性解决问题。

核心矛盾:VLM 擅长视觉语义对齐但缺乏空间-物理规律的深层理解,而现有方法在数据、训练和评估三个维度上各自为战,缺乏统一框架。

本文目标:从数据构建、训练优化和评估基准三个维度系统性解决 VLM 的时空推理缺陷。

切入角度:(1) 利用视频元注释(相机位姿矩阵、机器人动作日志)自动构建运动对比三元组;(2) 通过 GRPO 替代 SFT 优化策略学习;(3) 设计复合奖励包含逻辑一致性检验。

核心 idea:将运动理解问题形式化为对比三元组的结构化学习,通过规则驱动的数据构建和 GRPO 优化实现 VLM 时空推理能力的系统性提升。

方法详解

整体框架

ReMoT 由三个核心部分组成:(1) ReMoT-16K 数据构建:多专家协作管线从视频元注释中自动生成 16.5K 运动对比三元组;(2) 训练优化:系统探索 SFT、GRPO 及其混合策略(顺序 SFT→GRPO、交替 SFT↔GRPO);(3) 评估基准:构建 ReMoT-16K-Test,包含 600 个评估三元组和 1776 个问题,覆盖导航、机器人操作和仿真游戏场景。

关键设计

  1. 多专家协作数据构建管线:

    • 功能:从视频元注释中自动生成大规模高质量运动对比三元组 \((I_{anchor}, I_{pos}, I_{neg})\)
    • 运动估计专家:领域特定提取器,从 \(SE(3)\) 位姿矩阵计算相机旋转、从机器人遥测提取末端执行器轨迹等,输出组合运动属性 \(m\)
    • 三元组构建专家:(a) 正样本选择——通过属性阈值 \(\mathcal{T}_m\) 过滤感知显著且连贯的转换(如相机旋转在 \([10°, 50°]\));(b) 负样本生成——通过属性条件合成 \(\mathcal{T}_{geo}\) 模拟反向运动,或通过检索 \(\mathcal{R}\) 搜索视觉相似但属性冲突的帧
    • VQA 制定专家:为每个三元组设计多角度推理链,包含多选、判断、填空和比较推理等多种问题格式
    • 设计动机:直接使用 VLM 生成数据存在 55% 格式错误且成本高昂,仅获得 632 个有效三元组,而多专家管线生成 16.5K 高质量数据
  2. GRPO 与复合奖励设计:

    • 功能:通过强化学习优化 VLM 的运动推理能力,替代效果有限的 SFT
    • 核心算法:采用 GRPO(Group Relative Policy Optimization),对给定查询 \(q\) 采样 \(G\) 个响应,计算组归一化优势 \(\hat{A}_i = \frac{R_i - \bar{R}}{\sigma(\{R_j\})}\)
    • CoT 长度正则化:\(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\),抑制过长推理链
    • 逻辑一致性奖励:检测响应中的逻辑矛盾(如违反传递性 \(L_1 < L_2, L_2 < L_3, L_3 < L_1\)),给予 \(+1/-1/0\) 奖励
    • 复合奖励:\(R_i = R_{task} + \lambda_1 \cdot R_{logic} + \lambda_2 \cdot R_{length}\),权重比 3.5:3.5:1.3:1.7
    • 设计动机:分析发现 31.4% 的错误源于逻辑不一致,显式逻辑奖励可将逻辑正确率从 46.6% 提升至 99.3%
  3. 混合优化策略:

    • 功能:探索 SFT 与 GRPO 的最优组合方式
    • 顺序混合 (SFT→GRPO):SFT 提供稳定初始化后切换至 GRPO 微调
    • 交替混合 (SFT↔GRPO):SFT 和 GRPO 步骤每隔几个更新交替执行,通过 \((t \bmod (K_{SFT}+K_{GRPO})) < K_{SFT}\) 控制切换
    • 设计动机:交替策略使语言对齐和奖励对齐共同演化,避免模式遗忘

损失函数 / 训练策略

  • SFT 阶段:交叉熵损失仅计算 <answer> 标签内的 token
  • GRPO 阶段:标准 PPO 目标加 KL 正则化(系数 0.01),batch size 16,4 个 rollout/样本
  • 基座模型:Qwen3-VL-4B-Thinking,保留其内置 CoT 推理能力
  • 训练配置:8×A800 GPU,混合精度,2 个 epoch

实验关键数据

主实验 (ReMoT-16K-Test 基准)

模型 Overall Acc. Partial Acc. 导航 (Ov.) 操作 (Ov.) 复合操作 (Ov.)
Qwen2.5-VL-7B 5.1 25.4 4.8 4.0 0.0
Qwen3-VL-CoT-4B (基座) 20.7 38.9 2.4 15.3 4.8
InternVL3-8B 12.2 28.9 2.8 1.6 0.0
GRPO 33.6 61.6 27.0 54.5 61.3
SFT→GRPO 35.0 63.3 26.6 57.3 62.9
SFT↔GRPO (Ours) 38.0 64.0 21.4 68.6 69.4

消融实验 (训练策略与数据组成)

配置 Overall Acc. Partial Acc.
无训练 (基座) 20.7 38.9
仅操作数据 23.9 46.7
+ 导航数据 32.4 57.6
+ 仿真数据 (完整) 38.0 64.0
逻辑奖励消融 Overall Partial 逻辑正确率
基座模型 16.2 39.6 46.6%
GRPO w/o 逻辑奖励 68.6 77.3 98.6%
GRPO w/ 逻辑奖励 78.0 81.3 99.3%

关键发现

  • 交替 SFT↔GRPO 实现最佳综合性能(38.0% Overall),相对基座模型提升 25.1%
  • 4B 参数的 ReMoT 在时空基准上超越 7.5× 更大的 Qwen3-VL-30B-CoT(VLM2: 70.0 vs 68.2,VSI: 58.8 vs 56.1)
  • 多专家管线数据展现平滑的 scaling 特性,而 VLM 生成数据表现出波动和低天花板(~0.49 vs 0.66)
  • 在通用多模态基准上保持可比甚至更优的性能,证明增强时空推理不会导致灾难性遗忘

亮点与洞察

  • 系统性:首次从数据/训练/评估三维度统一解决 VLM 时空推理缺陷,而非零星修补
  • 高效数据构建:规则驱动管线比 VLM 生成数据效率高两个数量级(16.5K vs 632),且质量更高
  • 逻辑一致性奖励:发现并解决了 31.4% 错误源于逻辑矛盾的关键问题,逻辑奖励的引入将准确率提升 10.6%
  • 小模型大能力:4B 模型通过精准数据+RL 训练超越 30B 模型和 GPT-4o,验证了"数据质量+训练范式 > 模型规模"

局限与展望

  • 导航任务在交替训练下性能有所下降(Overall 21.4 vs GRPO 的 27.0),不同任务间可能存在优化冲突
  • 数据构建依赖结构化元注释(位姿矩阵等),对无元注释的视频不适用
  • 仅在 4B 模型上验证,未探索更大模型(7B+)上的效果是否有天花板
  • 评估基准规模有限(600 三元组),覆盖的场景多样性可进一步扩展

相关工作与启发

  • GRPO (Shao et al.):本文验证了 GRPO 在视觉推理任务上优于 SFT 的有效性
  • SimCLR / 对比学习:运动对比三元组的设计借鉴了对比学习的核心思想
  • Qwen3-VL:作为当前最强开源 VLM 之一,其 Thinking 模式为 RL 训练提供了优质初始化
  • 启发:规则驱动的数据构建+RL 优化这一范式可推广到其他 VLM 能力短板的修补

评分 (⭐星级)

维度 评分
创新性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
综合 ⭐⭐⭐⭐
---
description: "ReMoT:通过规则驱动的运动对比三元组数据和GRPO强化学习,系统性提升VLM的时空一致性推理能力,在时空推理任务上实现25.1%性能飞跃"
tags:
- CVPR 2026
- 自动驾驶
- VLM时空推理
- 强化学习
- 对比学习
- 数据构建
---

ReMoT: Reinforcement Learning with Motion Contrast Triplets

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 视觉语言模型 / 时空推理
关键词: 运动对比三元组, GRPO, 时空推理, VLM, 数据构建

一句话总结

提出 ReMoT,一个统一的训练范式,通过规则驱动的多专家协作流水线构建 ReMoT-16K 大规模运动对比三元组数据集,结合 GRPO 强化学习和逻辑一致性奖励,系统性解决 VLM 在时空一致性推理上的根本缺陷,在时空推理任务上实现 25.1% 的性能飞跃。

研究背景与动机

领域现状:VLM(如 GPT-4o、Claude-Sonnet-4.5、Gemini-2.5-Pro)已成为通用感知系统,但在涉及物理世界交互的关键领域(自动驾驶、具身智能、机器人操控)中,需要模型超越静态单帧感知进行时空一致性推理。

现有痛点:(1) 顶级 VLM 频繁混淆相机旋转与物体运动、误判夹爪状态、错误推断运动方向——即使是 GPT-4o 和 Qwen3-VL 也难以正确推理跨帧的物理变化。(2) 现有训练数据以静态图文对为主,缺乏对细粒度运动属性的显式建模。(3) 现有修复方案(架构修改、数据增强)都是零散的局部修补,缺乏从数据-训练-评估全链路的系统性解决方案。

核心矛盾:VLM 在视觉语义对齐上已经很强,但在时空一致性这一基础能力上存在系统性缺陷——能识别"是什么"但无法正确推理"怎么变化"。

本文目标:从数据构建、训练范式、评估基准三个维度系统性增强 VLM 的细粒度时空推理能力。

切入角度:构建运动对比三元组迫使模型学习细粒度运动区分,而非依赖表面视觉模式;用 GRPO 替代 SFT 提升推理一致性。

核心 idea:规则驱动的运动对比数据 + GRPO 强化学习 = 系统性修复 VLM 时空推理缺陷。

方法详解

整体框架

ReMoT 从三个维度展开:(1) 数据:多专家协作流水线从视频元注释中构建 ReMoT-16K 运动对比三元组数据集;(2) 训练:系统探索 SFT、GRPO 及其混合策略,设计复合奖励(任务准确性 + CoT长度正则 + 逻辑一致性);(3) 评估:构建 ReMoT-16k-Test 基准,600个评估三元组、1776个问题,覆盖导航/操控/模拟场景。

关键设计

  1. 多专家协作数据构建流水线:每个运动对比三元组由 \((I_{anchor}, I_{pos}, I_{neg})\) 组成,锚点-正样本对展示特定运动属性 \(m\),锚点-负样本对在视觉相似的前提下违反该属性。流水线包含三类专家:(a) 运动估计专家 \(g: (I_t, I_{t'}, \mathcal{A}) \to m\),从元注释中提取运动属性(如导航专家从 \(SE(3)\) 位姿矩阵计算刚体变换,操控专家从遥操作日志提取末端执行器轨迹);(b) 三元组构建专家,通过属性条件化阈值筛选正样本对 \(\phi(I_t, I_{t'}, m)\),并通过几何合成 \(\mathcal{T}_{geo}\) 或属性冲突检索 \(\mathcal{R}\) 生成硬负样本;(c) VQA 生成专家,为每个三元组设计多角度推理链问答。相比直接用 VLM 生成(55%格式错误、仅632有效三元组),该流水线产出 16.5K 高质量三元组。

  2. GRPO 强化学习与复合奖励:基于 Qwen3-VL-4B-Thinking 模型,采用 GRPO 优化。(a) CoT长度正则:引入长度惩罚 \(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\),抑制冗长重复的推理链。(b) 逻辑一致性奖励:分析发现31.4%的错误源于逻辑自相矛盾(如 \(L_1 < L_2, L_2 < L_3\)\(L_3 < L_1\)),引入形式化逻辑验证奖励 \(R_{logic}\),对满足传递性的给 +1、矛盾的给 -1。(c) 复合奖励\(R_i = R_{task} + \lambda_1 R_{logic} + \lambda_2 R_{length}\)

  3. 混合优化策略:设计两种 SFT-GRPO 集成方案:(a) 顺序混合 SFT→GRPO,SFT 先提供稳定初始化再转 GRPO;(b) 交替混合 SFT↔GRPO,SFT 和 GRPO 步骤每隔几步交替执行,使语言对齐和奖励对齐共同演化。交替策略通过 \(t \bmod (K_{SFT} + K_{GRPO})\) 控制阶段切换。实验表明交替策略 SFT↔GRPO 在整体 Partial Accuracy 上最优(64.0%)。

损失函数 / 训练策略

  • SFT 阶段:交叉熵损失仅在 <answer> 标记内计算,\(\mathcal{L}_{SFT} = -\sum_{u \in \text{<answer>}} \log \pi_\theta(y_u|q)\)
  • GRPO 阶段:标准 GRPO 目标函数 \(J(\theta) = \mathbb{E}[\frac{1}{G}\sum_{i=1}^G \min(r_i \hat{A}_i, \text{clip}(r_i, 1-\varepsilon, 1+\varepsilon)\hat{A}_i) - \beta D_{KL}(\pi_\theta \| \pi_{ref})]\)
  • 复合奖励权重:格式:准确性:简洁性:逻辑一致性 = 3.5:3.5:1.3:1.7
  • KL 正则系数 0.01,批大小 16,每样本 4 个 rollout,2 epoch

实验关键数据

主实验

模型 整体 Overall Acc. 整体 Partial Acc. 导航 操控 感知
Qwen2.5-VL-7B 5.1 25.4 4.8 4.0 23.9
Qwen3-VL-CoT-4B (基线) 20.7 38.9 2.4 15.3 35.8
InternVL3-8B 12.2 28.9 2.8 1.6 30.6
LLaVA-One-Vision 9.7 27.9 2.0 10.5 32.9
GRPO (Ours) 33.6 61.6 27.0 54.5 44.3
SFT→GRPO (Ours) 35.0 63.3 26.6 57.3 35.8
SFT↔GRPO (Ours) 38.0 64.0 21.4 68.6 46.7

ReMoT-16k-Test 基准。最优变体 SFT↔GRPO 相比基线提升 +17.3 Overall / +25.1 Partial。

消融实验

训练数据组成 Overall Acc. Partial Acc.
无训练 (基线) 20.7 38.9
仅操控 23.9 46.7
+导航 32.4 57.6
+模拟 38.0 64.0
逻辑奖励消融 Overall Partial 逻辑一致性%
基线 Qwen3-VL-4B 16.2 39.6 46.6
GRPO 无逻辑奖励 68.6 77.3 98.6
GRPO + 逻辑奖励 78.0 81.3 99.3

数据组成消融显示导航数据贡献最大(+8.4%),空间关系推理是核心能力。逻辑奖励解耦在操控子集上带来 +9.4 Overall 提升,且逻辑一致性从46.6%提升至99.3%。

关键发现

  • 多专家流水线展现平滑的数据扩展曲线(GRPO 达0.61,交叉验证变体达0.64-0.66),而 VLM 生成数据扩展不稳定且天花板低(~0.49)
  • ReMoT-4B-CoT 在时空推理基准(VLM2/VSI/MMSI)上超越7.5倍大的 Qwen3-VL-30B-CoT (+1.8/+2.7/+2.3%)
  • ReMoT 在通用多模态基准上保持甚至提升性能,未出现灾难性遗忘
  • 4B 模型在时空任务上匹敌或超越 GPT-4o

亮点与洞察

  • 系统性解决方案:从数据-训练-评估全链路解决 VLM 时空推理缺陷,而非局部修补
  • 规则驱动 vs VLM 生成:多专家流水线完胜直接 VLM 生成(55%格式错误 vs 高质量16.5K三元组),且扩展性更好——这对 AI 数据生产有深远启发
  • 逻辑一致性奖励:形式化验证推理链的逻辑传递性是一个通用且优雅的方案,可推广到任何需要多步推理一致性的场景
  • 小模型大能力:4B 模型通过精心的数据+训练策略超越 30B 和 GPT-4o,证明数据质量和训练范式比模型规模更重要

局限与展望

  • 当前仅验证了 Qwen3-VL-4B 一个基座模型,更大模型(7B/14B)上的效果待验证
  • 运动对比三元组主要覆盖导航/操控/模拟三个领域,复杂场景(如体育运动、工业流程)未涵盖
  • CoT 长度正则可能导致必要的长链推理被截断
  • 交替策略 SFT↔GRPO 的最优阶段长度 \((K_{SFT}, K_{GRPO})\) 选择缺乏理论指导

相关工作与启发

  • GRPO (DeepSeek):ReMoT 在视觉领域验证了 GRPO 相比 SFT 在推理任务上的优越性,并引入了逻辑一致性奖励这一创新
  • SpatialVLM / 3D-LLM:这些工作通过深度/场景图等3D信息增强空间理解,ReMoT 则从运动对比角度切入,两者互补
  • 启发:(1) 运动对比三元组的数据构建思路可迁移到视频生成质量评估;(2) 逻辑一致性奖励可用于任何多步推理任务的 RL 训练

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 运动对比三元组 + GRPO + 逻辑奖励的系统性方案极具创新
  • 技术深度: ⭐⭐⭐⭐ 多专家流水线设计精巧,训练范式探索全面
  • 实验充分度: ⭐⭐⭐⭐⭐ 自建基准+多基准验证+详细消融+数据扩展分析
  • 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,系统性强
  • 实用价值: ⭐⭐⭐⭐⭐ 时空推理是 VLM 应用于自动驾驶/机器人的核心能力瓶颈

description: "ReMoT:通过运动对比三元组和GRPO强化学习系统性提升VLM时空推理能力,在细粒度运动辨别任务上实现25.1%性能飞跃" tags: - CVPR 2026 - 自动驾驶 - VLM时空推理 - 强化学习 - 对比学习 - GRPO


ReMoT: Reinforcement Learning with Motion Contrast Triplets

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 视觉语言模型 / 时空推理
关键词: 运动对比三元组, GRPO, 时空推理, VLM, 数据构建

一句话总结

提出 ReMoT——一个统一训练范式,通过规则驱动的多专家协同构建 16.5K 运动对比三元组数据集 (ReMoT-16K),结合带逻辑一致性奖励和长度正则化的 GRPO 强化学习优化,系统性解决 VLM 在导航、机器人操作和自动驾驶等场景中的细粒度时空推理缺陷。

研究背景与动机

领域现状:VLM(如 GPT-4o、Claude、Gemini、Qwen3-VL)已成为通用感知系统,但在需要跨帧/跨视角理解物理变化的任务中表现差。它们经常混淆相机旋转与物体运动、误判夹爪状态、错误推断角色运动方向。

现有痛点: 1. 现有 VLM 训练数据以静态图文对为主,缺少对细粒度运动属性的显式建模 2. 架构修改或数据增强的既有尝试只是零散修补,未提供覆盖数据-训练-评估的系统方案 3. 用 VLM 直接生成三元组数据存在 55% 格式错误率,且 API 成本高昂

核心矛盾:VLM 擅长语义对齐但缺乏物理-空间规律的深层理解,而获取大规模高质量运动对比训练数据又极其困难。

本文目标:如何高效构建大规模运动对比数据,并找到最优训练范式提升 VLM 的时空推理能力?

切入角度:从数据、训练、评估三个维度系统出发——规则驱动的多专家数据构建替代昂贵人工标注,GRPO 替代 SFT 实现更好的推理一致性,构建首个细粒度运动对比基准进行严格评估。

核心 idea:运动对比三元组 + GRPO 优化 = VLM 时空推理能力的系统性提升。

方法详解

整体框架

ReMoT 包含三个维度:(1) 数据维度——多专家协同流水线构建 ReMoT-16K 运动对比三元组数据集;(2) 训练维度——系统比较 SFT、GRPO 及混合策略(顺序/交替),结合复合奖励设计;(3) 评估维度——构建 ReMoT-16k-Test 基准,含 600 评估三元组/1776 问题。

关键设计

  1. 运动对比三元组构建(多专家协同流水线):每个三元组 \((I_{anchor}, I_{pos}, I_{neg})\) 中,锚点-正例对展示特定运动属性 \(m\),锚点-负例对在视觉相似但运动属性相反。流水线由三个专家组成:

    • 运动估计专家\(g: (I_t, I_{t'}, \mathcal{A}) \to m\),从结构化元标注(如 \(SE(3)\) 位姿矩阵、机器人遥测数据)中提取运动属性
    • 三元组构建专家:通过属性阈值筛选显著正例 \(\phi(I_t, I_{t'}, m)\)(如相机旋转角在 \([10°, 50°]\)),然后用几何变换合成或属性检索生成困难负例 \(\mathcal{N}(I_{anchor}, I_{pos}, m)\)
    • VQA 生成专家:为每个三元组设计多角度推理链问答,涵盖选择题、判断题、填空题、比较推理等格式
  2. GRPO 训练与复合奖励设计:以 Qwen3-VL-4B-Thinking 为基础模型,采用 GRPO 优化。对组 \(G\) 个采样响应计算组归一化优势 \(\hat{A}_i = \frac{R_i - \bar{R}}{\sigma(\{R_j\})}\)。复合奖励 \(R_i = R_{task} + \lambda_1 R_{logic} + \lambda_2 R_{length}\),其中:

    • CoT 长度正则化\(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\),抑制冗余推理链
    • 逻辑一致性奖励:检查答案间的传递性关系(如 \(L_1 < L_2, L_2 < L_3\)\(L_3 < L_1\) 则矛盾),\(R_{logic} \in \{-1, 0, +1\}\)
    • 奖励权重比 \(3.5:3.5:1.3:1.7\)(格式:准确性:简洁性:逻辑一致性)
  3. 混合优化策略:除纯 SFT 和纯 GRPO 外,探索两种混合方案:

    • 顺序混合 (SFT→GRPO):SFT 先提供稳定初始化,再切换到 GRPO 精炼
    • 交替混合 (SFT↔GRPO):SFT 和 GRPO 步骤周期性交替,语言对齐和奖励对齐联合演化

损失函数 / 训练策略

SFT 阶段使用交叉熵损失,仅对 <answer> 标记内的 token 计算损失:\(\mathcal{L}_{SFT} = -\sum_{u \in \text{<answer>}} \log \pi_\theta(y_u | q)\)。GRPO 阶段使用标准 PPO 目标加 KL 正则(系数 0.01)。每轮训练 2 个 epoch,8×A800 GPU,混合精度。

实验关键数据

主实验(ReMoT-16k-Test 基准)

模型 Overall Acc. Partial Acc.
Qwen2.5-VL-7B 5.1 25.4
Qwen3-VL-CoT-4B (基线) 20.7 38.9
InternVL3-8B 12.2 28.9
LLaVA-One-Vision 9.7 27.9
GRPO (Ours) 33.6 61.6
SFT→GRPO (Ours) 35.0 63.3
SFT↔GRPO (Ours) 38.0 64.0

交替混合策略相对基线 Qwen3-VL 实现 +17.3 Overall / +25.1 Partial 的飞跃。

消融实验

训练数据组成 Overall Acc. Partial Acc.
无训练 (Qwen3-VL) 20.7 38.9
仅 Manipulation 23.9 46.7
+ Navigation 32.4 57.6
+ Simulation 38.0 64.0
逻辑奖励消融 Overall Partial 逻辑一致性
Qwen3-VL 基线 16.2 39.6 46.6%
GRPO 无逻辑奖励 68.6 77.3 98.6%
GRPO 含逻辑奖励 78.0 81.3 99.3%

关键发现

  • GRPO 显著优于 SFT,且交替混合 (SFT↔GRPO) 是最优策略
  • 多专家构建数据的扩展性远优于 VLM 生成数据(平滑扩展 vs 波动饱和于 ~0.49)
  • 逻辑一致性奖励将准确率从 68.6% 提升至 78.0%,解耦设计至关重要
  • 导航数据对空间关系推理的贡献最大(+8.4%),验证了空间推理的核心地位

亮点与洞察

  • 系统性方案:首次从数据-训练-评估三个维度系统性解决 VLM 时空推理问题,而非零散修补
  • 多专家流水线的工程智慧:规则驱动替代 VLM 生成,从根本解决格式错误和扩展性问题
  • 逻辑一致性奖励的洞察:31.4% 错误来自逻辑矛盾(如违反传递性),显式建模这种一致性极为有效
  • 小模型超大模型:ReMoT-4B 在时空基准上超越 7.5× 大的 Qwen3-VL-30B,甚至匹配 GPT-4o

局限与展望

  • 数据来源依赖有位姿等元标注的视频数据集,未涵盖所有场景域
  • 仅在 Qwen3-VL-4B 上验证,更大基础模型的效果待探索
  • 运动属性仅涵盖离散类别(左/右/上/下/开/合),连续运动量级的推理未涉及
  • 交替混合策略的最优周期长度 \((K_{SFT}, K_{GRPO})\) 未充分消融

相关工作与启发

  • vs 3D/4D 感知方法:这些方法通过深度/重建整合几何先验,但需要昂贵传感器且静态编码器弱化空间-时序关联;ReMoT 从对比学习和推理优化角度解决
  • vs DPO/RLHF:DPO 依赖偏好数据且一致性有限;GRPO 的组归一化优势避免了偏好对标注,逻辑奖励额外保证了推理链的自洽
  • 启发:运动对比三元组的构建范式可推广到任何需要"相似但不同"辨别的任务;逻辑一致性奖励可集成到任何 CoT 推理的 RL 训练中

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个从数据/训练/评估三维度系统解决 VLM 时空推理的工作
  • 技术深度: ⭐⭐⭐⭐ 多专家流水线设计精巧,复合奖励设计有理论动机
  • 实验充分度: ⭐⭐⭐⭐⭐ 自建基准+7 个外部基准,消融详尽,比较全面
  • 写作质量: ⭐⭐⭐⭐ 结构系统清晰,图示有效
  • 实用价值: ⭐⭐⭐⭐⭐ 数据构建流水线和训练范式可直接复用,提升幅度显著

相关论文