TARS: Traffic-Aware Radar Scene Flow Estimation¶
会议: ICCV2025
arXiv: 2503.10210
代码: 待确认
领域: autonomous_driving
关键词: 雷达场景流, 交通向量场, 点云运动估计, 多任务学习, 自动驾驶感知
一句话总结¶
提出 TARS,一种交通感知的雷达场景流估计方法,通过联合目标检测构建交通向量场(TVF),在交通层面而非实例层面捕获刚体运动,在 VOD 和专有数据集上分别超越 SOTA 15% 和 23%。
研究背景与动机¶
- 场景流为自动驾驶提供关键运动信息,描述两帧点云间的点位移向量
- 现有 LiDAR 场景流方法利用实例级刚体运动假设:场景由多个刚体运动物体和静止部分组成
- 但实例级方法不适合雷达点云,原因有三:
- 极度稀疏:雷达点云比 LiDAR 稀疏一个数量级(VOD 数据集每帧仅 ~256 点)
- 缺乏形状信息:无法可靠地匹配实例对
- 帧间"变形":稀疏性导致同一物体在连续帧中的点分布差异显著
- 雷达的优势:对天气条件更鲁棒,成本低一个数量级
- 核心问题:如何在保留刚体运动假设的同时适应雷达稀疏性?
- 本文方案:将刚体运动假设从实例级提升到交通级
方法详解¶
整体架构¶
TARS 采用层次化架构(L 层),结合两个分支: 1. 场景流分支:层次化粗到细的场景流估计 2. 目标检测(OD)分支:提供交通上下文信息的特征图
两个分支联合训练,OD 分支的特征图为场景流提供交通级先验知识。
输入与编码¶
- 两帧点云 \(P \in \mathbb{R}^{N \times 5}\) 和 \(Q \in \mathbb{R}^{M \times 5}\)
- 每个点 5 维特征:x, y, z 坐标 + 相对径向速度(RRV)+ 雷达截面积(RCS)
- 多尺度点编码器(PointNet)提取特征
- 最远点采样逐层下采样,产生多尺度点集对
双层运动理解¶
1. 点级运动理解¶
- 使用双注意力机制从邻近点中提取运动线索(替代不稳定的 MLP)
- 交叉注意力:点 \(p_i\) 与其在 Q 中 K 个最近邻之间计算,获取匹配嵌入
- 自注意力:结合匹配嵌入与 P 中邻域点的信息,获取点级流嵌入
- 先用上一层粗流进行 warp 对齐,减少搜索范围
- 与 HALFlow 不同,移除了方向向量以缓解点间距问题,使用异构 key/value
2. 交通级场景理解¶
核心创新:通过 TVF(交通向量场)建模交通级运动一致性。
TVF 定义:离散网格图,包含道路参与者和环境的交通信息,每个单元包含运动向量。使用粗网格(如 2m×2m)来获得高层理解而非陷入点级细节。
TVF 编码器¶
分两阶段构建 TVF:
场景更新(Scene Update): - 使用 GRU 跨层更新 TVF,输入为 OD 特征图(经 CNN 和池化适配到 TVF 形状) - TVF 作为 GRU 的隐藏状态,OD 特征为输入 - 跨层次逐步精化场景表示
流绘制(Flow Painting): - 将上一层的流嵌入和点特征投影到粗网格上 - 由于每个网格单元可包含多个不同运动模式的点,使用点到网格自注意力自适应提取运动特征 - 通过空间注意力融合交通特征和运动特征 - 使用轴向注意力(ω 个 block)提供全局感受野,建模交通中的刚体运动依赖关系(如同车道车辆的运动模式)
TVF 解码器¶
- 在空间上下文中感知隐藏的刚体运动
- 对每个点 \(p_i\) 执行网格到点交叉注意力:查询周围 \(\mathcal{N}_{TVF}\) 个 TVF 单元
- 注意力感受野限制在点的局部区域,聚焦相关的局部刚体运动
- query:上一层流嵌入 + 点特征;key/value:TVF 网格
场景流预测¶
- 拼接点级和交通级流嵌入:\(\textbf{e}^l = \text{Concat}(\textbf{e}_\text{point}, \textbf{e}_\text{traffic}, \text{Interp}(\textbf{e}^{l-1}))\)
- 再经自注意力后预测最终场景流 \(F^l\)
时序更新模块¶
- 使用 PointGRU 层利用多帧时序信息(区别于 TVF 编码器的跨层 GRU)
- 以 t-2 时刻的点特征初始化隐藏状态
- 训练时采样 T 帧 mini-clip 作为序列
训练策略¶
弱监督训练,不使用场景流 GT 标注,而是使用组合损失: 1. Soft Chamfer 损失 \(\mathcal{L}_{sc}\):对齐 warp 后的 P 与 Q 2. 空间平滑损失 \(\mathcal{L}_{ss}\):相邻点应有相似流向量 3. 径向位移损失 \(\mathcal{L}_{rd}\):利用雷达 RRV 测量约束径向流分量 4. 前景损失 \(\mathcal{L}_{fg}\):使用 LiDAR 多目标跟踪模型的伪 GT 5. 背景损失 \(\mathcal{L}_{bg}\):静态点使用自车运动变换作为伪 GT(λ=0.5)
自车运动处理¶
- TARS-ego:训练额外的自车运动头(与 CMFlow 公平对比)
- TARS-superego:自车运动作为已知输入进行补偿(模拟真实自动驾驶)
实验关键数据¶
VOD 数据集¶
| 方法 | EPE↓(m) | AccS↑(%) | AccR↑(%) | RNE↓ | MRNE↓ | SRNE↓ |
|---|---|---|---|---|---|---|
| RaFlow | 0.226 | 19.0 | 39.0 | 0.090 | 0.114 | 0.087 |
| CMFlow (SOTA) | 0.130 | 22.8 | 53.9 | 0.052 | 0.072 | 0.049 |
| TARS-ego | 0.092 | 39.0 | 69.1 | 0.037 | 0.061 | 0.034 |
| TARS-superego | 0.048 | 76.6 | 86.4 | 0.019 | 0.057 | 0.014 |
TARS-ego 将 EPE 从 0.130m 降至 0.092m(首次突破 AccR 阈值 0.1m),AccS/AccR 分别提升 16.2%/15.2%。
专有数据集(高分辨率雷达)¶
| 方法 | MEPE↓(m) | MagE↓ | DirE↓(rad) | AccS↑(%) | AccR↑(%) |
|---|---|---|---|---|---|
| PointPWC-Net+GRU | 0.213 | 0.178 | 0.762 | 49.0 | 60.5 |
| HALFlow+GRU | 0.170 | 0.135 | 0.721 | 50.9 | 63.8 |
| TARS | 0.069 | 0.059 | 0.599 | 69.8 | 86.8 |
MEPE 从 0.170m 降至 0.069m(-59%),AccS/AccR 提升 18.9%/23.0%。
消融实验(专有数据集)¶
| 配置 | MEPE↓ | AccS↑ | AccR↑ |
|---|---|---|---|
| 仅点级 | 0.178 | 47.9 | 61.6 |
| + 交通级(无OD特征图) | 0.144 | 45.0 | 63.3 |
| + OD特征图(细网格) | 0.104 | 51.4 | 69.9 |
| + 粗网格(无全局注意力) | 0.074 | 65.6 | 84.2 |
| + 全局注意力(完整 TARS) | 0.069 | 69.8 | 86.8 |
关键发现: - 粗网格(2m×2m vs 1m×1m)是交通级理解的关键 - 全局注意力(vs 局部卷积)提升 AccS +4.2% - TVF 解码器中 \(\mathcal{N}_{TVF}=9\)(周围邻域)效果最佳
损失函数消融(VOD 数据集)¶
- 背景损失 \(\mathcal{L}_{bg}\) 对整体性能显著提升:AccR 从 62.4% 到 69.1%
- 权重 λ=0.5 在运动点精度和整体精度间取得平衡
优势与局限¶
优势: - 首次将刚体运动假设从实例级提升到交通级,有效适应雷达稀疏性 - TVF 的粗网格设计避免了陷入点级细节的问题 - 通过 OD 分支的特征图(而非检测结果)获取交通上下文,降低了对检测精度的依赖 - 在两个数据集上大幅超越 SOTA(15% 和 23%) - 有效缓解了雷达无法测量切向速度的固有问题
局限: - 仍依赖 LiDAR 多目标跟踪模型生成前景伪 GT(非完全无 LiDAR) - VOD 数据集点云极稀疏(256 点/帧),TVF 解码器的 \(\mathcal{N}_{TVF}\) 影响不显著 - 未探索端到端训练(OD 和场景流联合优化)
个人思考¶
- "实例级 vs 交通级"的问题定位非常精准,直接击中了雷达场景流的核心痛点
- TVF 的设计思路有启发性:当数据太稀疏无法做精细匹配时,提升抽象层级是有效策略
- 粗网格 + 全局注意力的组合很有道理:粗网格保持高层语义,全局注意力建模车道级运动关联
- 联合目标检测的方式比直接使用检测结果更鲁棒,因为特征图包含的信息比框检测更丰富
- PointGRU 时序模块独立于 TVF 的层间 GRU,两者分工明确:一个负责时序积累,一个负责跨尺度场景更新
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [ICCV 2025] GaussianFlowOcc: Sparse and Weakly Supervised Occupancy Estimation using Gaussian Splatting and Temporal Flow
- [ACL 2025] Embracing Large Language Models in Traffic Flow Forecasting
- [CVPR 2025] TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-Stage Fusion
- [AAAI 2026] Meta Dynamic Graph for Traffic Flow Prediction
- [CVPR 2025] VoteFlow: Enforcing Local Rigidity in Self-Supervised Scene Flow