跳转至

Rethinking the Spatio-Temporal Alignment of End-to-End 3D Perception

会议: AAAI2026
arXiv: 2512.23635
代码: lixiaoyu2000/HAT
作者: Xiaoyu Li, Peidong Li, Xian Wu 等
领域: autonomous_driving
关键词: 时空对齐, 端到端3D感知, 多假设运动模型, 自动驾驶, 多目标跟踪

一句话总结

提出HAT(multiple Hypotheses spAtio-Temporal alignment),一个即插即用的时空对齐模块,通过多种显式运动模型生成对齐假设,并利用query中隐含的运动线索自适应解码最优对齐方案,在nuScenes上一致提升多种3D时序检测器和跟踪器,并在E2E自动驾驶中降低碰撞率达32-48%。

背景与动机

在自动驾驶的端到端(E2E)感知系统中,时空对齐(Spatio-Temporal Alignment, STA)是时序建模的核心环节。STA模块将历史帧的实例特征和anchor对齐到当前帧,为检测和跟踪提供结构化和语义化的先验信息。现有query-based方法(如StreamPETR、Sparse4D等)通常采用单一显式物理模型(如恒速CV模型)进行运动补偿,偏好通过query传播在隐空间进行特征对齐。

然而,这种简化的运动建模存在根本性缺陷:不同类别物体的运动模式差异巨大(行人vs车辆、直行vs转弯),同一物体在不同时间的运动状态也在变化。单一假设无法捕捉这种多样性。传统的模块化方法(如基于Kalman Filter的跟踪器)虽然考虑了多种运动模型,但需要手动调参且容易过拟合特定运动模式。

更深层的问题是:当前E2E方法中传播的query包含丰富但未被充分利用的运动线索。这些线索可以用来区分和构建最适合相应物体的结构化先验。如何在E2E框架中融合多种运动模型的优势,同时避免传统方法的脆弱性,是本文的核心研究问题。

核心问题

E2E感知中的STA模块如何摆脱单一运动假设的局限,自适应地为每个物体从多种运动模型中解码最优对齐方案,同时无需额外的直接监督信号?

方法详解

整体框架

HAT由两个阶段组成:时序对齐模块(Temporal Alignment Module)生成多种运动感知假设,空间对齐模块(Spatial Alignment Module)利用query中的运动线索解码最优对齐。

给定历史帧\(t-1\)的3D anchor集合\(B_{t-1} = \{b_{t-1}^i\}\)和query集合\(Q_{t-1} = \{q_{t-1}^i\}\),STA将它们传播到当前帧\(t\)

\[B_{t,t-1}, Q_{t,t-1} \leftarrow \text{STA}(B_{t-1}, Q_{t-1}, \Delta t, E_{t-1}^t)\]

其中\(E_{t-1}^t = [R_{t-1}^t | T_{t-1}^t]\)为ego pose变换矩阵。

多假设Anchor生成器

定义运动模型库(MML)包含5种经典运动模型: - STATIC:静止模型 - CV(Constant Velocity):恒速模型 - CA(Constant Acceleration):恒加速模型 - CTRV(Constant Turn Rate and Velocity):恒转率恒速模型 - CTRA(Constant Turn Rate and Acceleration):恒转率恒加速模型

每种模型根据\(\Delta t\)和历史anchor \(B_{t-1}\)外推anchor假设:

\[\hat{s}_{t,t-1} = s_{t-1} + \int_{(t-1)\Delta t}^{t\Delta t} \dot{s}(\tau) d\tau = s_{t-1} + \Delta s\]

其中加速度和yaw rate等不可观测状态由MLP从instance feature \(q_{t-1}\)中解码。经ego pose变换后得到多假设anchor \(\tilde{B}_{t,t-1} \in \mathbb{R}^{K \times M \times 10}\)

多假设特征生成器

利用state-decoupled encoder将anchor假设编码为运动嵌入,并与传播的query拼接,得到运动感知特征假设:

\[\tilde{Q}_{t,t-1} = \text{Cat}(\tilde{Q}'_{t,t-1}, Q_{t-1}) \in \mathbb{R}^{K \times M \times 2C}\]

自适应多假设解码器

特征解码:基于传播query生成动态权重\(W_c\)\(W_f\),通过MLP-like架构融合多假设特征:

\[\bar{Q}_{t,t-1} = \sigma(\text{LN}(W_f \otimes \sigma(\text{LN}(\tilde{Q}_{t,t-1} \otimes W_c))))\]

Anchor解码:借鉴IMM滤波器的后验估计思想,通过softmax加权求和解码最优anchor:

\[\bar{B}_{t,t-1} = \text{Softmax}(L_a(W_f)) \otimes \tilde{B}_{t,t-1}\]

特征-Anchor混合:通过运动精炼MLP \(\Phi_r\)增强anchor:

\[B_{t,t-1} = \bar{B}_{t,t-1} + \Phi_r(Q_{t,t-1})\]

稳定性保证

对齐位置\(\bar{X}_{t,t-1}\)被约束在所有运动模型补偿的范围内,由于模型基于物理,该约束天然稳定,无需额外监督。

实验关键数据

E2E自动驾驶(nuScenes验证集,SparseDrive基线)

方法 mAP↑ AMOTA↑ L2(m)↓ CR(%)↓
SparseDrive 41.2 36.9 0.63 0.123
SparseDrive-HAT 42.5(+1.3) 40.0(+3.1) 0.60 0.084(-32%)
DiffusionDrive 41.2 37.5 0.57 0.080
DiffusionDrive-HAT 42.7(+1.5) 40.2(+2.7) 0.58 0.042(-48%)

3D检测(nuScenes验证集)

检测器 NDS↑ mAP↑ mAVE↓
StreamPETR 57.1 48.2 0.26
+HAT 57.8(+0.7) 48.7(+0.5) 0.24
Sparse4D 56.4 46.5 0.22
+HAT 57.3(+0.9) 47.0(+0.5) 0.21
SimPB 58.6 47.9 0.22
+HAT 59.0(+0.4) 48.8(+0.9) 0.21

3D MOT(nuScenes测试集)

跟踪器 AMOTA↑ MOTA↑ IDS↓
ADA-Track 45.6 40.6 834
ADA-Track-HAT 46.0(+0.4) 41.6(+1.0) 850

鲁棒性验证(nuScenes-C Snow)

方法 NDS↑ AMOTA↑ CR(%)↓
SparseDrive 34.1 13.1 0.156
SparseDrive-HAT 39.1(+5.0) 18.0(+4.9) 0.122(-22%)

MML消融实验(Sparse4D基线)

CV STATIC CA CTRA CTRV NDS mAP
56.5 45.7
56.6 46.3
57.3 47.0
55.5 45.7

亮点

  • 即插即用的通用模块:HAT可无缝集成到多种query-based检测器(StreamPETR/Sparse4D/SimPB)、跟踪器(ADA-Track)和E2E方法(SparseDrive/DiffusionDrive),一致提升性能
  • 显式-隐式混合对齐:巧妙结合物理运动模型的可解释性和神经网络的自适应性,无需直接监督即可学习最优对齐
  • 碰撞率显著降低:在SparseDrive上降低32%、DiffusionDrive上降低48%的碰撞率,直接提升自动驾驶安全性
  • 恶劣天气鲁棒性:在nuScenes-C Snow条件下,HAT的运动建模增强使NDS提升5.0%,弥补了语义被破坏时的感知退化
  • 低额外开销:仅增加7ms延迟(基线111ms),具有实际部署可行性

局限与展望

  • 运动模型库固定:MML中的5种模型是预定义的,未涉及数据驱动的运动模型学习或动态模型库扩展
  • 仅验证camera-only方案:未在LiDAR或多模态融合设定下验证HAT的效果
  • 加速度和yaw rate的无监督回归:通过MLP从query解码不可观测状态,精度受限,作者也将输出约束在\(\pm 0.1\)的小范围内
  • 在纯结构化anchor传播时效果有限:在3DMOTFormer上提升甚微,说明HAT依赖query中的丰富语义和运动线索

与相关工作的对比

  • MLN(StreamPETR):仅用语义线索进行隐式对齐,HAT在StreamPETR上NDS提升0.7%、mAP提升0.5%,运动误差mAVE从0.26降至0.24
  • LMM(STAR-Track):使用预训练的轨迹预测网络进行有监督特征投影,HAT无需预训练即超过0.3% NDS和0.2% mAP
  • IMM滤波器:经典多模型滤波需手动设置切换概率,HAT通过网络自适应回归权重,解决了手动调参问题
  • BEVFormer:使用BEV特征进行时序建模,计算开销大;HAT基于object-centric传播,更高效

启发与关联

本文的核心启发是:在E2E感知中,运动建模与语义建模同等重要。现有方法过度依赖语义特征进行隐式对齐,忽略了经典运动模型的价值。HAT的多假设解码机制类似于粒子滤波思想——生成多个候选、加权融合选优。这一思路可推广到其他需要时序推理的任务,如视频理解、轨迹预测等。在恶劣天气下语义退化时,运动先验的重要性更加凸显。

评分

  • 新颖性: ⭐⭐⭐⭐ — 多假设显式-隐式混合对齐的思路新颖,但核心组件(运动模型、自适应解码)均有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖检测/跟踪/E2E三大任务,多个基线,消融实验完整,鲁棒性验证充分
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述规范,公式推导完整
  • 价值: ⭐⭐⭐⭐⭐ — 即插即用模块,代码开源,在安全关键指标(碰撞率)上提升显著,实用价值高

相关论文