RLVR-World: Training World Models with Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2505.13934
代码: GitHub
领域: 世界模型 / 强化学习后训练
关键词: 世界模型, RLVR, GRPO, 视频预测, 自回归生成

一句话总结¶

提出 RLVR-World 框架，将强化学习可验证奖励（RLVR）范式拓展到世界模型训练，通过将目标度量（如预测准确率、感知质量）作为可验证奖励直接优化，在语言和视频两类世界模型上取得显著提升。

研究背景与动机¶

世界模型旨在预测环境状态在动作干预下的转移，是模型驱动规划和强化学习的核心组件。当前世界模型普遍使用最大似然估计（MLE）作为训练目标（例如语言模型的 next-token prediction、扩散模型的变分下界优化），但这类代理目标与世界模型的真实使命——状态转移预测精度或感知质量——存在本质偏差。

具体来说，MLE 的问题体现在三个层面：

目标错位：似然目标与下游评价指标（如准确率、LPIPS）不直接对齐，会导致重复生成、幻觉等退化现象

非端到端优化：基于离散 tokenizer 的自回归架构无法直接优化像素级指标

多步误差累积：teacher-forcing 训练忽略了多步预测中误差传播的影响

受 DeepSeek-R1 等推理模型通过 RLVR 成功提升数学和代码能力的启发，作者提出将 RLVR 范式推广到世界模型：用规则化的可验证奖励替代学习式奖励模型，直接优化预测指标。

方法详解¶

整体框架¶

RLVR-World 将不同模态的世界模型统一到自回归序列建模框架下。核心思路分三步： 1. 将当前状态和动作编码为"问题" token 序列 $q(s,a)$，将下一状态编码为"回答" token 序列 $o(s')$ 2. 先用 MLE 预训练世界模型 3. 使用 RLVR 后训练，以预测指标作为可验证奖励微调

关键设计¶

统一序列建模：无论是文本、视频还是传感器数据，都通过模态特定的 tokenization 转化为 token 序列。语言用 BPE，图像/视频用离散视觉 tokenizer（iVideoGPT 的压缩 tokenizer），低维连续值用均匀分箱。这种统一使得 RLVR 可以跨模态通用。
预测指标作为可验证奖励：给定输入 $q(s,a)$，模型生成一组样本 $\{o_i\}_{i=1}^G$，解码出预测状态 $\hat{s}_i'$，通过与真值 $s'$ 比较计算奖励： $$R_i = \text{sign}(D) \cdot D(\hat{s}_i', s')$$ 其中 $\text{sign}(D) = -1$ 表示越低越好的指标（如 MSE、LPIPS），$\text{sign}(D) = 1$ 反之。这种设计的核心优势在于奖励是完全可验证的、无需人工标注。
GRPO 优化算法：采用群体相对策略优化（GRPO），不需要独立的价值函数。给定问题 $q$，采样一组回答 $\{o_i\}_{i=1}^G$，组内归一化计算优势： $$\hat{A}_{i,t} = \frac{R_i - \text{mean}(\{R_i\}_{i=1}^G)}{\text{std}(\{R_i\}_{i=1}^G)}$$ 配合裁剪目标和 KL 散度惩罚进行策略更新。

损失函数 / 训练策略¶

预训练阶段：标准 MLE 目标 $\mathcal{J}_{\text{MLE}}(\theta) = \sum_{t} \log p_\theta(o_t(s') | q(s,a), o_{<t}(s'))$
RLVR 后训练：GRPO 目标函数包含裁剪比率项和 KL 正则化
语言世界模型：先 SFT 再 RLVR，使用二元准确率奖励或任务特定奖励
视频世界模型：奖励定义为 L1 损失 + LPIPS 的负值之和：$R = -\sum_\tau [L_1(\hat{s}_\tau, s_\tau) + \text{LPIPS}(\hat{s}_\tau, s_\tau)]$

实验关键数据¶

主实验¶

文本游戏状态预测（ByteSized32）

模型	Unchanged Acc	Changed Acc	Overall Acc
Base (1.5B)	11.98%	0.08%	7.11%
SFT	38.88%	24.21%	32.87%
RLVR-World (binary)	73.57%	33.14%	57.01%
RLVR-World (task-specific)	83.66%	33.80%	63.24%
GPT-4	73.90%	51.60%	64.76%

视频世界模型：RT-1 多步预测

模型	Repetition Rate↓	MSE↓	PSNR↑	SSIM↑	LPIPS↓
Base	48.6%	0.659	23.1	80.9	14.8
Base (w/ rep. rejection)	0.0%	0.593	23.3	81.0	14.4
RLVR-World	9.9%	0.486	24.1	82.4	13.4
相对提升 Δ	+79.6%	+26.1%	+4.5%	+1.9%	+9.2%

消融实验¶

配置	关键指标	说明
不同指标作为奖励	各指标最佳对应自身	用 LPIPS 训练在 LPIPS 上最好，MSE 训练在 MSE 上最好
GRPO group size=2→16	收敛速度和最终性能持续提升	增大组大小提供更好的探索空间
加入重复惩罚奖励	重复率 0%，LPIPS=13.7	可在消除重复的同时保持预测质量
test-time scaling	RLVR 单次采样 > Base best-of-5	但 N=100 时 Base 追上 RLVR

关键发现¶

RLVR 仅需数百步梯度更新即可获得显著提升，而 MLE 需数十万步
RLVR 有效缓解了视频世界模型的重复帧问题（重复率从 48.6% 降至 9.9%）
强化后的世界模型在下游的 model-predictive control（网页导航）和策略评估（机器人操作）中都带来性能提升

亮点与洞察¶

RLVR 作为通用后训练范式的理念非常有前瞻性：不仅适用于推理模型，可以推广到所有有可验证度量的生成模型
将"世界模型"和"推理模型"做了巧妙类比：两者都需要从代理目标转向任务对齐的直接优化
用 iVideoGPT 的压缩 tokenizer 解决视频序列长度爆炸问题，使 GRPO 在视频模态上可行
Real2Sim 策略评估实验展示了实际应用价值

局限与展望¶

RLVR 训练通常几百步就收敛，性能天花板受限于基础模型能力
test-time scaling 存在上限：N 增大时 base model 可以追上 RLVR
当前视频世界模型在特定数据集上训练，尚未验证 OOD 泛化能力
奖励设计依赖传统视觉度量（MSE/LPIPS），未融入物理规则或时序一致性约束

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 RLVR 从推理模型推广到世界模型，跨语言和视频两种模态验证，思路新颖且有影响力
实验充分度: ⭐⭐⭐⭐ 涵盖文本游戏、网页导航、机器人操作等多种场景，消融充分，但缺少更大规模基础模型的实验
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，动机 articulation 精准，图表设计优秀
价值: ⭐⭐⭐⭐⭐ 提出的通用范式可广泛应用于各类生成模型的后训练优化