Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation¶
会议: CVPR 2026
arXiv: 2603.12864
代码: GitHub
领域: 自动驾驶 / 视频生成 / 对抗场景合成
关键词: 驾驶世界模型, 解耦控制, 对抗场景生成, 身份注入, Flow Matching
一句话总结¶
提出 CompoSIA,一个基于 Wan2.1 DiT 的组合式驾驶视频模拟器,通过对场景结构(3D bbox)、物体身份(单张参考图)和自车动作(相机轨迹)三因素的显式解耦注入,实现对抗性驾驶场景的细粒度可控生成,碰撞率提升 173%。
背景与动机¶
自动驾驶面临安全关键"长尾"场景稀缺的核心难题——危险场景往往由常见交通元素的不寻常组合产生。现有方法要么只能控制子集因素(如 DriveEditor 不支持新视角、ReCamMaster 无法逐元素控制),要么所有控制信号通过共享路径注入导致耦合(MagicDrive-V2),使得有意构建对抗场景异常困难。
核心问题¶
如何在驾驶视频生成中将场景布局、物体身份和自车行为三个核心因素彻底解耦,使其可独立操控又可任意组合,从而系统性地构造稀有危险场景?
方法详解¶
整体框架¶
基于 Wan2.1-T2V-1.3B 初始化的 Flow Matching DiT,为三类控制信号设计独立的注入路径:结构通过 latent 加法注入,身份在噪声级替换注入,动作通过分层双分支调制注入。采用 0.6:0.3:0.1 的训练模态比例(action / structure+identity+action / unconditional)。
关键设计¶
- 结构条件(Spatiotemporal Layouts): 每个场景元素用 3D bbox 序列表示,投影到图像平面后经 VAE 编码为 layout tokens,通过零初始化投影加到 latent tokens 上,保持空间对齐
- 噪声级身份注入: 从视频中随机选一帧裁剪参考图,按 2D bbox 对齐贴回所有帧构造 identity cue;训练时在高噪声阶段(t > 0.2)将目标区域 latent 替换为参考图 latent,配合掩码实现硬绑定。采样时通过控制停止步 \(T_{id}=0.4\) 平衡身份保真度和生成自由度
- 分层双分支动作控制: 局部分支将相对位姿 \((\Delta x, \Delta y, \Delta yaw)\) 通过 AdaLN 注入(加速早期收敛);全局分支用 PRoPE 投影位置编码在低维子空间(1/8)计算相机注意力(提升精度),两分支输出通过零初始化层安全融合
- 训练-采样解耦设计: 结构条件会泄漏动作信息,因此训练时结构条件必须与动作配对。第一帧背景替换为干净 latent 锚定场景身份,身份编辑时前景区域填充参考图,中间区域作为 inpainting 区域
损失函数 / 训练策略¶
v-prediction 损失(Flow Matching CFM loss),16 × A100 训练约 4 天 20,000 步。VAE 去除时间下采样(stride 1 而非 4×),在 100h 自采数据上微调 7 天。混合分辨率训练(256×512 和 480×960)。
实验关键数据¶
| 任务 | 指标 | CompoSIA | 之前 SOTA | 提升 |
|---|---|---|---|---|
| 场景跟随 (FVD) | FVD↓ | 133.66 | 152.80 (MagicDrive-V2) | -12.5% |
| 身份控制 (FVD) | FVD↓ | 149.15 | 161.32 (LoRA-Edit) | -7.5% |
| 动作跟随 RotErr | RotErr↓ | 0.55 | 0.76 (MagicDrive-V2) | -28% |
| 动作跟随 TransErr | TransErr↓ | 7.37 | 13.66 (MagicDrive-V2) | -46% |
| 规划碰撞率 3s (编辑后) | 平均碰撞率 | — | — | +173% |
动作编辑后碰撞率 3s 增至 1.19%(原始 0.35%),结构编辑碰撞率飙至 2.89%(+390%)。
消融实验要点¶
- 去掉结构条件→周围车辆运动和空间对齐失败
- 去掉动作分支→自车运动不稳定,验证动作信号不会从结构中泄漏
- 局部残差调制(r.m.)和全局 PRoPE 注意力(p.a.)缺一不可:无 r.m. RotErr 从 0.55 升至 2.84,无 p.a. TransErr 从 7.37 升至 11.24
- \(T_{id}\)=0.4 在身份保真度和生成自由度之间取得最佳平衡
亮点¶
- 将驾驶场景生成建模为三因素组合问题,真正实现独立+组合编辑
- 噪声级身份注入巧妙避免注意力机制中身份-运动的冲突
- 下游规划器压力测试揭示了隐藏的失败模式,赋予系统实际安全评估价值
局限性 / 可改进方向¶
- 身份编辑泛化受限于训练数据(主要为驾驶场景),对完全 OOD 类别(如动物)效果差
- 编辑管线需要手动指定参考目标的近似 3D bbox 尺寸
- 仅在 nuScenes 上评估规划鲁棒性,缺少更多驾驶数据集验证
与相关工作的对比¶
- vs DriveEditor:后者仅支持结构和元素身份但无法生成新视角或控制动作
- vs MagicDrive-V2:后者结构和动作通过共享路径注入导致耦合,FVD 和动作误差均更差
- vs ReCamMaster:后者仅控制相机动作,无元素级结构/身份控制
- vs Vista:后者动作跟随误差显著更高(RotErr 0.81 vs 0.55, TransErr 14.25 vs 7.37)
启发与关联¶
- 解耦控制的设计思路值得推广到其他多条件可控生成任务
- 噪声级注入 vs 注意力级注入的权衡是可控生成领域的关键设计选择
评分¶
- 新颖性: ⭐⭐⭐⭐ 解耦三因素+噪声级身份注入+分层动作控制,设计系统且新颖
- 实验充分度: ⭐⭐⭐⭐ 多维度定量比较+消融+下游规划评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰,技术陈述精确
- 价值: ⭐⭐⭐⭐ 对自动驾驶安全评估有实际意义