ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 自动驾驶 / 视觉语言模型
关键词: 运动对比三元组, 时空推理, GRPO, VLM, 强化学习

一句话总结¶

提出 ReMoT 统一训练范式，通过规则驱动的多专家协作管线自动构建 16.5K 运动对比三元组数据集 (ReMoT-16K)，并结合 GRPO 强化学习与复合奖励（逻辑一致性+长度正则化），系统性解决 VLM 在时空一致性推理上的根本缺陷，实现 25.1% 的性能提升。

研究背景与动机¶

领域现状：视觉语言模型 (VLM) 如 GPT-4o、Claude、Gemini、Qwen 等已发展为通用感知系统，在静态图像理解和语义对齐上表现出色，并被部署于 AIGC、具身智能和自动驾驶等关键领域。

现有痛点：(1) 当前主流 VLM 在时空一致性推理上存在根本缺陷——频繁混淆相机旋转与物体运动、误判夹爪状态、错误推断运动方向；(2) 现有训练数据以静态图像-文本对为主，缺乏对细粒度运动属性的显式建模；(3) 架构修改或数据增强等方法只能提供零星修补，无法系统性解决问题。

核心矛盾：VLM 擅长视觉语义对齐但缺乏空间-物理规律的深层理解，而现有方法在数据、训练和评估三个维度上各自为战，缺乏统一框架。

本文目标：从数据构建、训练优化和评估基准三个维度系统性解决 VLM 的时空推理缺陷。

切入角度：(1) 利用视频元注释（相机位姿矩阵、机器人动作日志）自动构建运动对比三元组；(2) 通过 GRPO 替代 SFT 优化策略学习；(3) 设计复合奖励包含逻辑一致性检验。

核心 idea：将运动理解问题形式化为对比三元组的结构化学习，通过规则驱动的数据构建和 GRPO 优化实现 VLM 时空推理能力的系统性提升。

方法详解¶

整体框架¶

ReMoT 由三个核心部分组成：(1) ReMoT-16K 数据构建：多专家协作管线从视频元注释中自动生成 16.5K 运动对比三元组；(2) 训练优化：系统探索 SFT、GRPO 及其混合策略（顺序 SFT→GRPO、交替 SFT↔GRPO）；(3) 评估基准：构建 ReMoT-16K-Test，包含 600 个评估三元组和 1776 个问题，覆盖导航、机器人操作和仿真游戏场景。

关键设计¶

多专家协作数据构建管线:
- 功能：从视频元注释中自动生成大规模高质量运动对比三元组 \((I_{anchor}, I_{pos}, I_{neg})\)
- 运动估计专家：领域特定提取器，从 \(SE(3)\) 位姿矩阵计算相机旋转、从机器人遥测提取末端执行器轨迹等，输出组合运动属性 \(m\)
- 三元组构建专家：(a) 正样本选择——通过属性阈值 \(\mathcal{T}_m\) 过滤感知显著且连贯的转换（如相机旋转在 \([10°, 50°]\)）；(b) 负样本生成——通过属性条件合成 \(\mathcal{T}_{geo}\) 模拟反向运动，或通过检索 \(\mathcal{R}\) 搜索视觉相似但属性冲突的帧
- VQA 制定专家：为每个三元组设计多角度推理链，包含多选、判断、填空和比较推理等多种问题格式
- 设计动机：直接使用 VLM 生成数据存在 55% 格式错误且成本高昂，仅获得 632 个有效三元组，而多专家管线生成 16.5K 高质量数据
GRPO 与复合奖励设计:
- 功能：通过强化学习优化 VLM 的运动推理能力，替代效果有限的 SFT
- 核心算法：采用 GRPO（Group Relative Policy Optimization），对给定查询 \(q\) 采样 \(G\) 个响应，计算组归一化优势 \(\hat{A}_i = \frac{R_i - \bar{R}}{\sigma(\{R_j\})}\)
- CoT 长度正则化：\(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\)，抑制过长推理链
- 逻辑一致性奖励：检测响应中的逻辑矛盾（如违反传递性 \(L_1 < L_2, L_2 < L_3, L_3 < L_1\)），给予 \(+1/-1/0\) 奖励
- 复合奖励：\(R_i = R_{task} + \lambda_1 \cdot R_{logic} + \lambda_2 \cdot R_{length}\)，权重比 3.5:3.5:1.3:1.7
- 设计动机：分析发现 31.4% 的错误源于逻辑不一致，显式逻辑奖励可将逻辑正确率从 46.6% 提升至 99.3%
混合优化策略:
- 功能：探索 SFT 与 GRPO 的最优组合方式
- 顺序混合 (SFT→GRPO)：SFT 提供稳定初始化后切换至 GRPO 微调
- 交替混合 (SFT↔GRPO)：SFT 和 GRPO 步骤每隔几个更新交替执行，通过 \((t \bmod (K_{SFT}+K_{GRPO})) < K_{SFT}\) 控制切换
- 设计动机：交替策略使语言对齐和奖励对齐共同演化，避免模式遗忘

损失函数 / 训练策略¶

SFT 阶段：交叉熵损失仅计算 <answer> 标签内的 token
GRPO 阶段：标准 PPO 目标加 KL 正则化（系数 0.01），batch size 16，4 个 rollout/样本
基座模型：Qwen3-VL-4B-Thinking，保留其内置 CoT 推理能力
训练配置：8×A800 GPU，混合精度，2 个 epoch

实验关键数据¶

主实验 (ReMoT-16K-Test 基准)¶

模型	Overall Acc.	Partial Acc.	导航 (Ov.)	操作 (Ov.)	复合操作 (Ov.)
Qwen2.5-VL-7B	5.1	25.4	4.8	4.0	0.0
Qwen3-VL-CoT-4B (基座)	20.7	38.9	2.4	15.3	4.8
InternVL3-8B	12.2	28.9	2.8	1.6	0.0
GRPO	33.6	61.6	27.0	54.5	61.3
SFT→GRPO	35.0	63.3	26.6	57.3	62.9
SFT↔GRPO (Ours)	38.0	64.0	21.4	68.6	69.4

消融实验 (训练策略与数据组成)¶

配置	Overall Acc.	Partial Acc.
无训练 (基座)	20.7	38.9
仅操作数据	23.9	46.7
+ 导航数据	32.4	57.6
+ 仿真数据 (完整)	38.0	64.0

逻辑奖励消融	Overall	Partial	逻辑正确率
基座模型	16.2	39.6	46.6%
GRPO w/o 逻辑奖励	68.6	77.3	98.6%
GRPO w/ 逻辑奖励	78.0	81.3	99.3%

关键发现¶

交替 SFT↔GRPO 实现最佳综合性能（38.0% Overall），相对基座模型提升 25.1%
4B 参数的 ReMoT 在时空基准上超越 7.5× 更大的 Qwen3-VL-30B-CoT（VLM2: 70.0 vs 68.2，VSI: 58.8 vs 56.1）
多专家管线数据展现平滑的 scaling 特性，而 VLM 生成数据表现出波动和低天花板（~0.49 vs 0.66）
在通用多模态基准上保持可比甚至更优的性能，证明增强时空推理不会导致灾难性遗忘

亮点与洞察¶

系统性：首次从数据/训练/评估三维度统一解决 VLM 时空推理缺陷，而非零星修补
高效数据构建：规则驱动管线比 VLM 生成数据效率高两个数量级（16.5K vs 632），且质量更高
逻辑一致性奖励：发现并解决了 31.4% 错误源于逻辑矛盾的关键问题，逻辑奖励的引入将准确率提升 10.6%
小模型大能力：4B 模型通过精准数据+RL 训练超越 30B 模型和 GPT-4o，验证了"数据质量+训练范式 > 模型规模"

局限与展望¶

导航任务在交替训练下性能有所下降（Overall 21.4 vs GRPO 的 27.0），不同任务间可能存在优化冲突
数据构建依赖结构化元注释（位姿矩阵等），对无元注释的视频不适用
仅在 4B 模型上验证，未探索更大模型（7B+）上的效果是否有天花板
评估基准规模有限（600 三元组），覆盖的场景多样性可进一步扩展

评分 (⭐星级)¶

维度	评分
创新性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
综合	⭐⭐⭐⭐
---
description: "ReMoT：通过规则驱动的运动对比三元组数据和GRPO强化学习，系统性提升VLM的时空一致性推理能力，在时空推理任务上实现25.1%性能飞跃"
tags:
- CVPR 2026
- 自动驾驶
- VLM时空推理
- 强化学习
- 对比学习
- 数据构建
---

ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 视觉语言模型 / 时空推理
关键词: 运动对比三元组, GRPO, 时空推理, VLM, 数据构建

一句话总结¶

提出 ReMoT，一个统一的训练范式，通过规则驱动的多专家协作流水线构建 ReMoT-16K 大规模运动对比三元组数据集，结合 GRPO 强化学习和逻辑一致性奖励，系统性解决 VLM 在时空一致性推理上的根本缺陷，在时空推理任务上实现 25.1% 的性能飞跃。

研究背景与动机¶

领域现状：VLM（如 GPT-4o、Claude-Sonnet-4.5、Gemini-2.5-Pro）已成为通用感知系统，但在涉及物理世界交互的关键领域（自动驾驶、具身智能、机器人操控）中，需要模型超越静态单帧感知进行时空一致性推理。

现有痛点：(1) 顶级 VLM 频繁混淆相机旋转与物体运动、误判夹爪状态、错误推断运动方向——即使是 GPT-4o 和 Qwen3-VL 也难以正确推理跨帧的物理变化。(2) 现有训练数据以静态图文对为主，缺乏对细粒度运动属性的显式建模。(3) 现有修复方案（架构修改、数据增强）都是零散的局部修补，缺乏从数据-训练-评估全链路的系统性解决方案。

核心矛盾：VLM 在视觉语义对齐上已经很强，但在时空一致性这一基础能力上存在系统性缺陷——能识别"是什么"但无法正确推理"怎么变化"。

本文目标：从数据构建、训练范式、评估基准三个维度系统性增强 VLM 的细粒度时空推理能力。

切入角度：构建运动对比三元组迫使模型学习细粒度运动区分，而非依赖表面视觉模式；用 GRPO 替代 SFT 提升推理一致性。

核心 idea：规则驱动的运动对比数据 + GRPO 强化学习 = 系统性修复 VLM 时空推理缺陷。

方法详解¶

整体框架¶

ReMoT 从三个维度展开：(1) 数据：多专家协作流水线从视频元注释中构建 ReMoT-16K 运动对比三元组数据集；(2) 训练：系统探索 SFT、GRPO 及其混合策略，设计复合奖励（任务准确性 + CoT长度正则 + 逻辑一致性）；(3) 评估：构建 ReMoT-16k-Test 基准，600个评估三元组、1776个问题，覆盖导航/操控/模拟场景。

关键设计¶

多专家协作数据构建流水线：每个运动对比三元组由 \((I_{anchor}, I_{pos}, I_{neg})\) 组成，锚点-正样本对展示特定运动属性 \(m\)，锚点-负样本对在视觉相似的前提下违反该属性。流水线包含三类专家：(a) 运动估计专家 \(g: (I_t, I_{t'}, \mathcal{A}) \to m\)，从元注释中提取运动属性（如导航专家从 \(SE(3)\) 位姿矩阵计算刚体变换，操控专家从遥操作日志提取末端执行器轨迹）；(b) 三元组构建专家，通过属性条件化阈值筛选正样本对 \(\phi(I_t, I_{t'}, m)\)，并通过几何合成 \(\mathcal{T}_{geo}\) 或属性冲突检索 \(\mathcal{R}\) 生成硬负样本；(c) VQA 生成专家，为每个三元组设计多角度推理链问答。相比直接用 VLM 生成（55%格式错误、仅632有效三元组），该流水线产出 16.5K 高质量三元组。
GRPO 强化学习与复合奖励：基于 Qwen3-VL-4B-Thinking 模型，采用 GRPO 优化。(a) CoT长度正则：引入长度惩罚 \(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\)，抑制冗长重复的推理链。(b) 逻辑一致性奖励：分析发现31.4%的错误源于逻辑自相矛盾（如 \(L_1 < L_2, L_2 < L_3\) 但 \(L_3 < L_1\)），引入形式化逻辑验证奖励 \(R_{logic}\)，对满足传递性的给 +1、矛盾的给 -1。(c) 复合奖励为 \(R_i = R_{task} + \lambda_1 R_{logic} + \lambda_2 R_{length}\)。
混合优化策略：设计两种 SFT-GRPO 集成方案：(a) 顺序混合 SFT→GRPO，SFT 先提供稳定初始化再转 GRPO；(b) 交替混合 SFT↔GRPO，SFT 和 GRPO 步骤每隔几步交替执行，使语言对齐和奖励对齐共同演化。交替策略通过 \(t \bmod (K_{SFT} + K_{GRPO})\) 控制阶段切换。实验表明交替策略 SFT↔GRPO 在整体 Partial Accuracy 上最优(64.0%)。

损失函数 / 训练策略¶

SFT 阶段：交叉熵损失仅在 <answer> 标记内计算，\(\mathcal{L}_{SFT} = -\sum_{u \in \text{<answer>}} \log \pi_\theta(y_u|q)\)
GRPO 阶段：标准 GRPO 目标函数 \(J(\theta) = \mathbb{E}[\frac{1}{G}\sum_{i=1}^G \min(r_i \hat{A}_i, \text{clip}(r_i, 1-\varepsilon, 1+\varepsilon)\hat{A}_i) - \beta D_{KL}(\pi_\theta \| \pi_{ref})]\)
复合奖励权重：格式:准确性:简洁性:逻辑一致性 = 3.5:3.5:1.3:1.7
KL 正则系数 0.01，批大小 16，每样本 4 个 rollout，2 epoch

实验关键数据¶

主实验¶

模型	整体 Overall Acc.	整体 Partial Acc.	导航	操控	感知
Qwen2.5-VL-7B	5.1	25.4	4.8	4.0	23.9
Qwen3-VL-CoT-4B (基线)	20.7	38.9	2.4	15.3	35.8
InternVL3-8B	12.2	28.9	2.8	1.6	30.6
LLaVA-One-Vision	9.7	27.9	2.0	10.5	32.9
GRPO (Ours)	33.6	61.6	27.0	54.5	44.3
SFT→GRPO (Ours)	35.0	63.3	26.6	57.3	35.8
SFT↔GRPO (Ours)	38.0	64.0	21.4	68.6	46.7

ReMoT-16k-Test 基准。最优变体 SFT↔GRPO 相比基线提升 +17.3 Overall / +25.1 Partial。

消融实验¶

训练数据组成	Overall Acc.	Partial Acc.
无训练 (基线)	20.7	38.9
仅操控	23.9	46.7
+导航	32.4	57.6
+模拟	38.0	64.0

逻辑奖励消融	Overall	Partial	逻辑一致性%
基线 Qwen3-VL-4B	16.2	39.6	46.6
GRPO 无逻辑奖励	68.6	77.3	98.6
GRPO + 逻辑奖励	78.0	81.3	99.3

数据组成消融显示导航数据贡献最大(+8.4%)，空间关系推理是核心能力。逻辑奖励解耦在操控子集上带来 +9.4 Overall 提升，且逻辑一致性从46.6%提升至99.3%。

关键发现¶

多专家流水线展现平滑的数据扩展曲线（GRPO 达0.61，交叉验证变体达0.64-0.66），而 VLM 生成数据扩展不稳定且天花板低(~0.49)
ReMoT-4B-CoT 在时空推理基准(VLM2/VSI/MMSI)上超越7.5倍大的 Qwen3-VL-30B-CoT (+1.8/+2.7/+2.3%)
ReMoT 在通用多模态基准上保持甚至提升性能，未出现灾难性遗忘
4B 模型在时空任务上匹敌或超越 GPT-4o

亮点与洞察¶

系统性解决方案：从数据-训练-评估全链路解决 VLM 时空推理缺陷，而非局部修补
规则驱动 vs VLM 生成：多专家流水线完胜直接 VLM 生成（55%格式错误 vs 高质量16.5K三元组），且扩展性更好——这对 AI 数据生产有深远启发
逻辑一致性奖励：形式化验证推理链的逻辑传递性是一个通用且优雅的方案，可推广到任何需要多步推理一致性的场景
小模型大能力：4B 模型通过精心的数据+训练策略超越 30B 和 GPT-4o，证明数据质量和训练范式比模型规模更重要

局限与展望¶

当前仅验证了 Qwen3-VL-4B 一个基座模型，更大模型（7B/14B）上的效果待验证
运动对比三元组主要覆盖导航/操控/模拟三个领域，复杂场景（如体育运动、工业流程）未涵盖
CoT 长度正则可能导致必要的长链推理被截断
交替策略 SFT↔GRPO 的最优阶段长度 \((K_{SFT}, K_{GRPO})\) 选择缺乏理论指导

评分¶

新颖性: ⭐⭐⭐⭐⭐ 运动对比三元组 + GRPO + 逻辑奖励的系统性方案极具创新
技术深度: ⭐⭐⭐⭐ 多专家流水线设计精巧，训练范式探索全面
实验充分度: ⭐⭐⭐⭐⭐ 自建基准+多基准验证+详细消融+数据扩展分析
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，系统性强
实用价值: ⭐⭐⭐⭐⭐ 时空推理是 VLM 应用于自动驾驶/机器人的核心能力瓶颈

description: "ReMoT：通过运动对比三元组和GRPO强化学习系统性提升VLM时空推理能力，在细粒度运动辨别任务上实现25.1%性能飞跃" tags: - CVPR 2026 - 自动驾驶 - VLM时空推理 - 强化学习 - 对比学习 - GRPO

ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

会议: CVPR 2026
arXiv: 2603.00461
代码: 无
领域: 视觉语言模型 / 时空推理
关键词: 运动对比三元组, GRPO, 时空推理, VLM, 数据构建

一句话总结¶

提出 ReMoT——一个统一训练范式，通过规则驱动的多专家协同构建 16.5K 运动对比三元组数据集 (ReMoT-16K)，结合带逻辑一致性奖励和长度正则化的 GRPO 强化学习优化，系统性解决 VLM 在导航、机器人操作和自动驾驶等场景中的细粒度时空推理缺陷。

研究背景与动机¶

领域现状：VLM（如 GPT-4o、Claude、Gemini、Qwen3-VL）已成为通用感知系统，但在需要跨帧/跨视角理解物理变化的任务中表现差。它们经常混淆相机旋转与物体运动、误判夹爪状态、错误推断角色运动方向。

现有痛点： 1. 现有 VLM 训练数据以静态图文对为主，缺少对细粒度运动属性的显式建模 2. 架构修改或数据增强的既有尝试只是零散修补，未提供覆盖数据-训练-评估的系统方案 3. 用 VLM 直接生成三元组数据存在 55% 格式错误率，且 API 成本高昂

核心矛盾：VLM 擅长语义对齐但缺乏物理-空间规律的深层理解，而获取大规模高质量运动对比训练数据又极其困难。

本文目标：如何高效构建大规模运动对比数据，并找到最优训练范式提升 VLM 的时空推理能力？

切入角度：从数据、训练、评估三个维度系统出发——规则驱动的多专家数据构建替代昂贵人工标注，GRPO 替代 SFT 实现更好的推理一致性，构建首个细粒度运动对比基准进行严格评估。

核心 idea：运动对比三元组 + GRPO 优化 = VLM 时空推理能力的系统性提升。

方法详解¶

整体框架¶

ReMoT 包含三个维度：(1) 数据维度——多专家协同流水线构建 ReMoT-16K 运动对比三元组数据集；(2) 训练维度——系统比较 SFT、GRPO 及混合策略（顺序/交替），结合复合奖励设计；(3) 评估维度——构建 ReMoT-16k-Test 基准，含 600 评估三元组/1776 问题。

关键设计¶

运动对比三元组构建（多专家协同流水线）：每个三元组 \((I_{anchor}, I_{pos}, I_{neg})\) 中，锚点-正例对展示特定运动属性 \(m\)，锚点-负例对在视觉相似但运动属性相反。流水线由三个专家组成：
- 运动估计专家：\(g: (I_t, I_{t'}, \mathcal{A}) \to m\)，从结构化元标注（如 \(SE(3)\) 位姿矩阵、机器人遥测数据）中提取运动属性
- 三元组构建专家：通过属性阈值筛选显著正例 \(\phi(I_t, I_{t'}, m)\)（如相机旋转角在 \([10°, 50°]\)），然后用几何变换合成或属性检索生成困难负例 \(\mathcal{N}(I_{anchor}, I_{pos}, m)\)
- VQA 生成专家：为每个三元组设计多角度推理链问答，涵盖选择题、判断题、填空题、比较推理等格式
GRPO 训练与复合奖励设计：以 Qwen3-VL-4B-Thinking 为基础模型，采用 GRPO 优化。对组 \(G\) 个采样响应计算组归一化优势 \(\hat{A}_i = \frac{R_i - \bar{R}}{\sigma(\{R_j\})}\)。复合奖励 \(R_i = R_{task} + \lambda_1 R_{logic} + \lambda_2 R_{length}\)，其中：
- CoT 长度正则化：\(R_{length}(o_i) = -\max(0, |o_i^{think}| - L_{target})\)，抑制冗余推理链
- 逻辑一致性奖励：检查答案间的传递性关系（如 \(L_1 < L_2, L_2 < L_3\) 但 \(L_3 < L_1\) 则矛盾），\(R_{logic} \in \{-1, 0, +1\}\)
- 奖励权重比 \(3.5:3.5:1.3:1.7\)（格式:准确性:简洁性:逻辑一致性）
混合优化策略：除纯 SFT 和纯 GRPO 外，探索两种混合方案：
- 顺序混合 (SFT→GRPO)：SFT 先提供稳定初始化，再切换到 GRPO 精炼
- 交替混合 (SFT↔GRPO)：SFT 和 GRPO 步骤周期性交替，语言对齐和奖励对齐联合演化

损失函数 / 训练策略¶

SFT 阶段使用交叉熵损失，仅对 <answer> 标记内的 token 计算损失：\(\mathcal{L}_{SFT} = -\sum_{u \in \text{<answer>}} \log \pi_\theta(y_u | q)\)。GRPO 阶段使用标准 PPO 目标加 KL 正则（系数 0.01）。每轮训练 2 个 epoch，8×A800 GPU，混合精度。

实验关键数据¶

主实验（ReMoT-16k-Test 基准）¶

模型	Overall Acc.	Partial Acc.
Qwen2.5-VL-7B	5.1	25.4
Qwen3-VL-CoT-4B (基线)	20.7	38.9
InternVL3-8B	12.2	28.9
LLaVA-One-Vision	9.7	27.9
GRPO (Ours)	33.6	61.6
SFT→GRPO (Ours)	35.0	63.3
SFT↔GRPO (Ours)	38.0	64.0

交替混合策略相对基线 Qwen3-VL 实现 +17.3 Overall / +25.1 Partial 的飞跃。

消融实验¶

训练数据组成	Overall Acc.	Partial Acc.
无训练 (Qwen3-VL)	20.7	38.9
仅 Manipulation	23.9	46.7
+ Navigation	32.4	57.6
+ Simulation	38.0	64.0

逻辑奖励消融	Overall	Partial	逻辑一致性
Qwen3-VL 基线	16.2	39.6	46.6%
GRPO 无逻辑奖励	68.6	77.3	98.6%
GRPO 含逻辑奖励	78.0	81.3	99.3%

关键发现¶

GRPO 显著优于 SFT，且交替混合 (SFT↔GRPO) 是最优策略
多专家构建数据的扩展性远优于 VLM 生成数据（平滑扩展 vs 波动饱和于 ~0.49）
逻辑一致性奖励将准确率从 68.6% 提升至 78.0%，解耦设计至关重要
导航数据对空间关系推理的贡献最大（+8.4%），验证了空间推理的核心地位

亮点与洞察¶

系统性方案：首次从数据-训练-评估三个维度系统性解决 VLM 时空推理问题，而非零散修补
多专家流水线的工程智慧：规则驱动替代 VLM 生成，从根本解决格式错误和扩展性问题
逻辑一致性奖励的洞察：31.4% 错误来自逻辑矛盾（如违反传递性），显式建模这种一致性极为有效
小模型超大模型：ReMoT-4B 在时空基准上超越 7.5× 大的 Qwen3-VL-30B，甚至匹配 GPT-4o

局限与展望¶

数据来源依赖有位姿等元标注的视频数据集，未涵盖所有场景域
仅在 Qwen3-VL-4B 上验证，更大基础模型的效果待探索
运动属性仅涵盖离散类别（左/右/上/下/开/合），连续运动量级的推理未涉及
交替混合策略的最优周期长度 \((K_{SFT}, K_{GRPO})\) 未充分消融

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个从数据/训练/评估三维度系统解决 VLM 时空推理的工作
技术深度: ⭐⭐⭐⭐ 多专家流水线设计精巧，复合奖励设计有理论动机
实验充分度: ⭐⭐⭐⭐⭐ 自建基准+7 个外部基准，消融详尽，比较全面
写作质量: ⭐⭐⭐⭐ 结构系统清晰，图示有效
实用价值: ⭐⭐⭐⭐⭐ 数据构建流水线和训练范式可直接复用，提升幅度显著

ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验 (ReMoT-16K-Test 基准)¶

消融实验 (训练策略与数据组成)¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分 (⭐星级)¶

ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

ReMoT: Reinforcement Learning with Motion Contrast Triplets¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（ReMoT-16k-Test 基准）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶