WPT: World-to-Policy Transfer via Online World Model Distillation¶

会议: CVPR 2026
arXiv: 2511.20095
代码: 无
领域: 自动驾驶
关键词: 世界模型, 策略蒸馏, 奖励模型, 自动驾驶, 在线蒸馏

一句话总结¶

WPT 提出世界-策略转移训练范式，通过可训练的奖励模型将世界模型的未来预测知识注入教师策略，再通过策略蒸馏和世界奖励蒸馏转移到轻量学生策略，实现79.23驾驶得分（闭环）且推理速度提升4.9倍。

训练阶段：世界模型预测未来状态→奖励模型评估多模态候选轨迹→教师策略选择最优轨迹。蒸馏阶段：学生通过策略蒸馏（对齐规划表示）和世界奖励蒸馏（匹配教师最优奖励轨迹）从教师学习。部署时只用学生策略。

可训练交互式奖励模型:
- 功能：评估候选轨迹与未来世界状态的一致性
- 核心思路：每条候选轨迹 \(\tau_i\) 与世界模型预测的未来状态 \(F_{t+1}^w\) 结合，通过轨迹编码器和两个奖励头评估——（1）模仿奖励：评估轨迹与人类驾驶偏好的一致性；（2）模拟奖励：基于PDM评分等驾驶质量指标打分。最终奖励为两者加权。
- 设计动机：将世界模型的预测能力转化为可优化的奖励信号，使策略能端到端地从未来预测中学习。
策略蒸馏:
- 功能：将教师的规划表示能力转移到轻量学生
- 核心思路：对齐教师和学生的规划表示（planning queries经过decoder后的特征），使学生在单次前向传播中就能产生接近教师的规划。
- 设计动机：学生网络简单，直接学习端到端映射避免了多模态轨迹生成和世界模型交互的开销。
世界奖励蒸馏:
- 功能：让学生学会匹配教师在预测未来世界中的最优轨迹
- 核心思路：鼓励学生输出的轨迹在世界模型预测的未来中获得与教师最优轨迹相近的奖励，即匹配教师选择的奖励最高轨迹。
- 设计动机：仅对齐表示不够，还需要对齐"什么轨迹在未来世界中是最好的"这一决策逻辑。

教师训练：模仿损失（imitation reward）+ 仿真奖励（simulation reward）。蒸馏：策略蒸馏损失 + 世界奖励蒸馏损失。

基准	指标	WPT	之前SOTA	提升
开环	L2误差	0.61m	-	竞争力
开环	碰撞率	0.11%	-	SOTA
闭环	驾驶得分	79.23	-	SOTA
推理速度	加速比	4.9×	1×	显著提升