Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation¶

会议: CVPR 2026
arXiv: 2603.12864
代码: GitHub
领域: 自动驾驶 / 视频生成 / 对抗场景合成
关键词: 驾驶世界模型, 解耦控制, 对抗场景生成, 身份注入, Flow Matching

一句话总结¶

提出 CompoSIA，一个基于 Wan2.1 DiT 的组合式驾驶视频模拟器，通过对场景结构（3D bbox）、物体身份（单张参考图）和自车动作（相机轨迹）三因素的显式解耦注入，实现对抗性驾驶场景的细粒度可控生成，碰撞率提升 173%。

背景与动机¶

自动驾驶面临安全关键"长尾"场景稀缺的核心难题——危险场景往往由常见交通元素的不寻常组合产生。现有方法要么只能控制子集因素（如 DriveEditor 不支持新视角、ReCamMaster 无法逐元素控制），要么所有控制信号通过共享路径注入导致耦合（MagicDrive-V2），使得有意构建对抗场景异常困难。

核心问题¶

如何在驾驶视频生成中将场景布局、物体身份和自车行为三个核心因素彻底解耦，使其可独立操控又可任意组合，从而系统性地构造稀有危险场景？

方法详解¶

整体框架¶

基于 Wan2.1-T2V-1.3B 初始化的 Flow Matching DiT，为三类控制信号设计独立的注入路径：结构通过 latent 加法注入，身份在噪声级替换注入，动作通过分层双分支调制注入。采用 0.6:0.3:0.1 的训练模态比例（action / structure+identity+action / unconditional）。

关键设计¶

结构条件（Spatiotemporal Layouts）: 每个场景元素用 3D bbox 序列表示，投影到图像平面后经 VAE 编码为 layout tokens，通过零初始化投影加到 latent tokens 上，保持空间对齐
噪声级身份注入: 从视频中随机选一帧裁剪参考图，按 2D bbox 对齐贴回所有帧构造 identity cue；训练时在高噪声阶段（t > 0.2）将目标区域 latent 替换为参考图 latent，配合掩码实现硬绑定。采样时通过控制停止步 \(T_{id}=0.4\) 平衡身份保真度和生成自由度
分层双分支动作控制: 局部分支将相对位姿 \((\Delta x, \Delta y, \Delta yaw)\) 通过 AdaLN 注入（加速早期收敛）；全局分支用 PRoPE 投影位置编码在低维子空间（1/8）计算相机注意力（提升精度），两分支输出通过零初始化层安全融合
训练-采样解耦设计: 结构条件会泄漏动作信息，因此训练时结构条件必须与动作配对。第一帧背景替换为干净 latent 锚定场景身份，身份编辑时前景区域填充参考图，中间区域作为 inpainting 区域

损失函数 / 训练策略¶

v-prediction 损失（Flow Matching CFM loss），16 × A100 训练约 4 天 20,000 步。VAE 去除时间下采样（stride 1 而非 4×），在 100h 自采数据上微调 7 天。混合分辨率训练（256×512 和 480×960）。

实验关键数据¶

任务	指标	CompoSIA	之前 SOTA	提升
场景跟随 (FVD)	FVD↓	133.66	152.80 (MagicDrive-V2)	-12.5%
身份控制 (FVD)	FVD↓	149.15	161.32 (LoRA-Edit)	-7.5%
动作跟随 RotErr	RotErr↓	0.55	0.76 (MagicDrive-V2)	-28%
动作跟随 TransErr	TransErr↓	7.37	13.66 (MagicDrive-V2)	-46%
规划碰撞率 3s (编辑后)	平均碰撞率	—	—	+173%

动作编辑后碰撞率 3s 增至 1.19%（原始 0.35%），结构编辑碰撞率飙至 2.89%（+390%）。

消融实验要点¶

去掉结构条件→周围车辆运动和空间对齐失败
去掉动作分支→自车运动不稳定，验证动作信号不会从结构中泄漏
局部残差调制（r.m.）和全局 PRoPE 注意力（p.a.）缺一不可：无 r.m. RotErr 从 0.55 升至 2.84，无 p.a. TransErr 从 7.37 升至 11.24
\(T_{id}\)=0.4 在身份保真度和生成自由度之间取得最佳平衡

亮点¶

将驾驶场景生成建模为三因素组合问题，真正实现独立+组合编辑
噪声级身份注入巧妙避免注意力机制中身份-运动的冲突
下游规划器压力测试揭示了隐藏的失败模式，赋予系统实际安全评估价值

局限性 / 可改进方向¶

身份编辑泛化受限于训练数据（主要为驾驶场景），对完全 OOD 类别（如动物）效果差
编辑管线需要手动指定参考目标的近似 3D bbox 尺寸
仅在 nuScenes 上评估规划鲁棒性，缺少更多驾驶数据集验证

与相关工作的对比¶

vs DriveEditor：后者仅支持结构和元素身份但无法生成新视角或控制动作
vs MagicDrive-V2：后者结构和动作通过共享路径注入导致耦合，FVD 和动作误差均更差
vs ReCamMaster：后者仅控制相机动作，无元素级结构/身份控制
vs Vista：后者动作跟随误差显著更高（RotErr 0.81 vs 0.55, TransErr 14.25 vs 7.37）

启发与关联¶

解耦控制的设计思路值得推广到其他多条件可控生成任务
噪声级注入 vs 注意力级注入的权衡是可控生成领域的关键设计选择

评分¶

新颖性: ⭐⭐⭐⭐ 解耦三因素+噪声级身份注入+分层动作控制，设计系统且新颖
实验充分度: ⭐⭐⭐⭐ 多维度定量比较+消融+下游规划评估
写作质量: ⭐⭐⭐⭐ 结构清晰，技术陈述精确
价值: ⭐⭐⭐⭐ 对自动驾驶安全评估有实际意义