跳转至

TARS: Traffic-Aware Radar Scene Flow Estimation

会议: ICCV2025
arXiv: 2503.10210
代码: 待确认
领域: autonomous_driving
关键词: 雷达场景流, 交通向量场, 点云运动估计, 多任务学习, 自动驾驶感知

一句话总结

提出 TARS,一种交通感知的雷达场景流估计方法,通过联合目标检测构建交通向量场(TVF),在交通层面而非实例层面捕获刚体运动,在 VOD 和专有数据集上分别超越 SOTA 15% 和 23%。

研究背景与动机

  • 场景流为自动驾驶提供关键运动信息,描述两帧点云间的点位移向量
  • 现有 LiDAR 场景流方法利用实例级刚体运动假设:场景由多个刚体运动物体和静止部分组成
  • 但实例级方法不适合雷达点云,原因有三:
  • 极度稀疏:雷达点云比 LiDAR 稀疏一个数量级(VOD 数据集每帧仅 ~256 点)
  • 缺乏形状信息:无法可靠地匹配实例对
  • 帧间"变形":稀疏性导致同一物体在连续帧中的点分布差异显著
  • 雷达的优势:对天气条件更鲁棒,成本低一个数量级
  • 核心问题:如何在保留刚体运动假设的同时适应雷达稀疏性?
  • 本文方案:将刚体运动假设从实例级提升到交通级

方法详解

整体架构

TARS 采用层次化架构(L 层),结合两个分支: 1. 场景流分支:层次化粗到细的场景流估计 2. 目标检测(OD)分支:提供交通上下文信息的特征图

两个分支联合训练,OD 分支的特征图为场景流提供交通级先验知识。

输入与编码

  • 两帧点云 \(P \in \mathbb{R}^{N \times 5}\)\(Q \in \mathbb{R}^{M \times 5}\)
  • 每个点 5 维特征:x, y, z 坐标 + 相对径向速度(RRV)+ 雷达截面积(RCS)
  • 多尺度点编码器(PointNet)提取特征
  • 最远点采样逐层下采样,产生多尺度点集对

双层运动理解

1. 点级运动理解

  • 使用双注意力机制从邻近点中提取运动线索(替代不稳定的 MLP)
  • 交叉注意力:点 \(p_i\) 与其在 Q 中 K 个最近邻之间计算,获取匹配嵌入
  • 自注意力:结合匹配嵌入与 P 中邻域点的信息,获取点级流嵌入
  • 先用上一层粗流进行 warp 对齐,减少搜索范围
  • 与 HALFlow 不同,移除了方向向量以缓解点间距问题,使用异构 key/value

2. 交通级场景理解

核心创新:通过 TVF(交通向量场)建模交通级运动一致性。

TVF 定义:离散网格图,包含道路参与者和环境的交通信息,每个单元包含运动向量。使用粗网格(如 2m×2m)来获得高层理解而非陷入点级细节。

TVF 编码器

分两阶段构建 TVF:

场景更新(Scene Update): - 使用 GRU 跨层更新 TVF,输入为 OD 特征图(经 CNN 和池化适配到 TVF 形状) - TVF 作为 GRU 的隐藏状态,OD 特征为输入 - 跨层次逐步精化场景表示

流绘制(Flow Painting): - 将上一层的流嵌入和点特征投影到粗网格上 - 由于每个网格单元可包含多个不同运动模式的点,使用点到网格自注意力自适应提取运动特征 - 通过空间注意力融合交通特征和运动特征 - 使用轴向注意力(ω 个 block)提供全局感受野,建模交通中的刚体运动依赖关系(如同车道车辆的运动模式)

TVF 解码器

  • 在空间上下文中感知隐藏的刚体运动
  • 对每个点 \(p_i\) 执行网格到点交叉注意力:查询周围 \(\mathcal{N}_{TVF}\) 个 TVF 单元
  • 注意力感受野限制在点的局部区域,聚焦相关的局部刚体运动
  • query:上一层流嵌入 + 点特征;key/value:TVF 网格

场景流预测

  • 拼接点级和交通级流嵌入:\(\textbf{e}^l = \text{Concat}(\textbf{e}_\text{point}, \textbf{e}_\text{traffic}, \text{Interp}(\textbf{e}^{l-1}))\)
  • 再经自注意力后预测最终场景流 \(F^l\)

时序更新模块

  • 使用 PointGRU 层利用多帧时序信息(区别于 TVF 编码器的跨层 GRU)
  • 以 t-2 时刻的点特征初始化隐藏状态
  • 训练时采样 T 帧 mini-clip 作为序列

训练策略

弱监督训练,不使用场景流 GT 标注,而是使用组合损失: 1. Soft Chamfer 损失 \(\mathcal{L}_{sc}\):对齐 warp 后的 P 与 Q 2. 空间平滑损失 \(\mathcal{L}_{ss}\):相邻点应有相似流向量 3. 径向位移损失 \(\mathcal{L}_{rd}\):利用雷达 RRV 测量约束径向流分量 4. 前景损失 \(\mathcal{L}_{fg}\):使用 LiDAR 多目标跟踪模型的伪 GT 5. 背景损失 \(\mathcal{L}_{bg}\):静态点使用自车运动变换作为伪 GT(λ=0.5)

自车运动处理

  • TARS-ego:训练额外的自车运动头(与 CMFlow 公平对比)
  • TARS-superego:自车运动作为已知输入进行补偿(模拟真实自动驾驶)

实验关键数据

VOD 数据集

方法 EPE↓(m) AccS↑(%) AccR↑(%) RNE↓ MRNE↓ SRNE↓
RaFlow 0.226 19.0 39.0 0.090 0.114 0.087
CMFlow (SOTA) 0.130 22.8 53.9 0.052 0.072 0.049
TARS-ego 0.092 39.0 69.1 0.037 0.061 0.034
TARS-superego 0.048 76.6 86.4 0.019 0.057 0.014

TARS-ego 将 EPE 从 0.130m 降至 0.092m(首次突破 AccR 阈值 0.1m),AccS/AccR 分别提升 16.2%/15.2%。

专有数据集(高分辨率雷达)

方法 MEPE↓(m) MagE↓ DirE↓(rad) AccS↑(%) AccR↑(%)
PointPWC-Net+GRU 0.213 0.178 0.762 49.0 60.5
HALFlow+GRU 0.170 0.135 0.721 50.9 63.8
TARS 0.069 0.059 0.599 69.8 86.8

MEPE 从 0.170m 降至 0.069m(-59%),AccS/AccR 提升 18.9%/23.0%。

消融实验(专有数据集)

配置 MEPE↓ AccS↑ AccR↑
仅点级 0.178 47.9 61.6
+ 交通级(无OD特征图) 0.144 45.0 63.3
+ OD特征图(细网格) 0.104 51.4 69.9
+ 粗网格(无全局注意力) 0.074 65.6 84.2
+ 全局注意力(完整 TARS) 0.069 69.8 86.8

关键发现: - 粗网格(2m×2m vs 1m×1m)是交通级理解的关键 - 全局注意力(vs 局部卷积)提升 AccS +4.2% - TVF 解码器中 \(\mathcal{N}_{TVF}=9\)(周围邻域)效果最佳

损失函数消融(VOD 数据集)

  • 背景损失 \(\mathcal{L}_{bg}\) 对整体性能显著提升:AccR 从 62.4% 到 69.1%
  • 权重 λ=0.5 在运动点精度和整体精度间取得平衡

优势与局限

优势: - 首次将刚体运动假设从实例级提升到交通级,有效适应雷达稀疏性 - TVF 的粗网格设计避免了陷入点级细节的问题 - 通过 OD 分支的特征图(而非检测结果)获取交通上下文,降低了对检测精度的依赖 - 在两个数据集上大幅超越 SOTA(15% 和 23%) - 有效缓解了雷达无法测量切向速度的固有问题

局限: - 仍依赖 LiDAR 多目标跟踪模型生成前景伪 GT(非完全无 LiDAR) - VOD 数据集点云极稀疏(256 点/帧),TVF 解码器的 \(\mathcal{N}_{TVF}\) 影响不显著 - 未探索端到端训练(OD 和场景流联合优化)

个人思考

  • "实例级 vs 交通级"的问题定位非常精准,直接击中了雷达场景流的核心痛点
  • TVF 的设计思路有启发性:当数据太稀疏无法做精细匹配时,提升抽象层级是有效策略
  • 粗网格 + 全局注意力的组合很有道理:粗网格保持高层语义,全局注意力建模车道级运动关联
  • 联合目标检测的方式比直接使用检测结果更鲁棒,因为特征图包含的信息比框检测更丰富
  • PointGRU 时序模块独立于 TVF 的层间 GRU,两者分工明确:一个负责时序积累,一个负责跨尺度场景更新

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评

相关论文