World4Drive: End-to-End Autonomous Driving via Intention-aware Physical Latent World Model¶

元信息¶

会议: ICCV 2025
arXiv: 2507.00603
代码: GitHub
领域: 自动驾驶
关键词: 端到端自动驾驶, 世界模型, 多模态意图, 视觉基础模型, 自监督学习

一句话总结¶

构建意图感知的潜在世界模型 World4Drive，利用视觉基础模型的空间-语义先验，在无感知标注条件下实现端到端规划，L2误差降低18.1%，碰撞率降低46.7%。

研究背景与动机¶

端到端自动驾驶直接从原始传感器数据生成规划轨迹，但面临以下挑战：

感知标注成本高：UniAD、VAD、SparseDrive 等方法依赖 3D 边界框和高精地图等昂贵的感知标注，限制了可扩展性。

单模态潜在特征不足：LAW 等先行方法从原始图像提取单模态潜在特征进行自监督学习，但难以捕获物理世界的空间-语义信息和多模态驾驶意图，导致训练收敛慢、性能次优。World4Drive 相比 LAW 实现了 3.75 倍更快的训练收敛。

多模态意图的不确定性：在路口等复杂场景中，多种驾驶行为（左转、直行、右转）均为合理选择，需要建模这种意图不确定性并评估不同意图下的未来状态。

方法详解¶

整体框架¶

World4Drive 包含两个核心模块：(1) 驾驶世界编码模块，提取驾驶意图和物理世界潜在表示；(2) 意图感知世界模型，根据多模态意图预测未来潜在表示并评分多模态规划轨迹。

意图编码器¶

以轨迹词汇表 \(\mathcal{V} \in \mathbb{R}^{N \times S \times 2}\)（N=8192 条轨迹，S 个路点）为输入，通过 K-means 聚类获取意图点 \(P_I \in \mathbb{R}^{3 \times K \times 2}\)（3种指令类型 × K=6 个意图），经正弦位置编码后通过自注意力得到意图感知规划查询：

\[Q_{plan} = \text{SelfAttention}(Q_{ego} + Q_I)\]

物理世界潜在编码¶

上下文编码器包含两个关键组件：

语义理解：使用 Grounded-SAM 生成伪语义标签 \(S_t = \text{GroundedSAM}(F_t)\)，通过交叉熵损失 \(\mathcal{L}_{sem}\) 增强语义理解
3D空间编码：使用度量深度模型 Metric3D v2 估计多视图深度图 \(D_t\)，通过前向投影获取 3D 位置图 \(P_t\)，经正弦编码和 MLP 得到位置嵌入：\(E_t = \text{MLP}(\text{SPE}(P_t))\)

时间聚合：通过交叉注意力整合历史信息：\(L_t = \text{CrossAttention}(\hat{F_t}, \hat{F}_{t-1})\)

意图感知世界模型¶

动作编码：规划查询聚合场景上下文后生成多模态轨迹 \(T = \{T^1, \ldots, T^K\} \in \mathbb{R}^{K \times S \times 2}\)，通过 MLP 获取意图感知动作 token \(A \in \mathbb{R}^{K \times D}\)。

世界模型预测：预测不同意图下的未来潜在表示，使用可学习查询和多层交叉注意力：

\[L_{t+n} = \text{CrossAttention}(Q_{future}, \text{Concat}(A, L))\]

世界模型选择器¶

计算每个意图下预测潜在表示与实际未来潜在表示的特征距离，选择距离最小的意图 \(j\)。对应距离作为重建损失 \(\mathcal{L}_{recon}\)，轨迹 \(T^j\) 作为最终规划。同时训练 ScoreNet 通过 Focal Loss 预测评分 \(\mathbb{S} = \text{Softmax}(\mathcal{C}(L_{t+n}))\)。

总损失¶

\[\mathcal{L} = 0.2\mathcal{L}_{sem} + 0.2\mathcal{L}_{recon} + 0.5\mathcal{L}_{score} + 1.0\mathcal{L}_{traj}\]

实验¶

nuScenes 开环规划¶

方法	Avg L2(m)↓	Avg 碰撞率(%)↓	需要标注
UniAD	1.03	0.31	✓
VAD	0.72	0.23	✓
GenAD	0.52	0.19	✓
LAW (Perception-based)	0.49	0.19	✓
BEV-Planner	0.55	0.59	✗
LAW (Perception-free)	0.61	0.30	✗
World4Drive	0.50	0.16	✗

NavSim 闭环规划¶

方法	PDMS↑	NC↑	DAC↑	EP↑
UniAD	83.4	97.8	91.9	78.8
LAW (Perception-free)	83.8	97.2	93.3	78.8
DiffusionDrive	88.1	98.2	96.2	82.2
World4Drive	85.1	97.4	94.3	79.9

消融实验¶

深度	语义	世界模型	意图	Avg L2	碰撞率
✗	✗	✓	✗	0.61	0.30
✗	✗	✓	✓	0.55	0.25
✓	✗	✓	✓	0.51	0.29
✓	✓	✗	✗	0.49	0.26
✓	✓	✗	✓	0.61	0.36
✓	✓	✓	✓	0.50	0.16

关键发现¶

无标注SOTA：在无感知标注条件下达到最优性能，碰撞率甚至低于需标注方法
意图+世界模型缺一不可：仅有意图无世界模型反而退化（消融行5），世界模型提供了评估不同意图下规划合理性的能力
语义先验降碰撞：语义先验显著降低碰撞率，表明对障碍物的理解增强
恶劣条件鲁棒：夜间碰撞率降低63.7%，雨天降低68.8%，归因于视觉基础模型提供的高维语义信息对光度不一致性的鲁棒性

亮点与洞察¶

模拟人类决策过程：通过在不同驾驶意图下"想象"未来世界来选择最优行动，类似人类驾驶员的决策过程
视觉基础模型的巧妙利用：Grounded-SAM 提供语义先验、Metric3D 提供空间先验，无需手动标注
意图-世界模型耦合设计：意图提供多模态规划可能性，世界模型评估每种可能性的合理性
收敛加速 3.75 倍：得益于空间-语义先验的引入

局限性¶

依赖预训练视觉基础模型（Grounded-SAM、Metric3D），增加了预处理开销
闭环性能仍落后于使用 LiDAR 的 DiffusionDrive
未来世界预测仅在潜在空间进行，缺乏可解释性

评分¶

新颖性: ⭐⭐⭐⭐ — 意图感知世界模型选择器设计新颖
技术深度: ⭐⭐⭐⭐⭐ — 物理潜在编码、意图编码、世界模型选择器设计精密
实验充分性: ⭐⭐⭐⭐⭐ — 开环+闭环，多维度消融，天气/光照/驾驶操作分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，消融设计合理