跳转至

CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking

会议: AAAI 2026 (Oral)
arXiv: 2511.15580
代码: 无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, Token压缩, 信息瓶颈, 低秩近似

一句话总结

提出CompTrack——首个同时解决LiDAR点云中空间冗余和信息冗余双重挑战的3D单目标跟踪框架:空间前景预测器(SFP)基于信息熵过滤背景噪声,信息瓶颈引导的动态Token压缩(IB-DTC)模块利用在线SVD估计有效秩并将前景压缩为紧凑代理token;在nuScenes和Waymo上达到SOTA,同时以90 FPS实时运行。

研究背景与动机

基于LiDAR点云的3D单目标跟踪(SOT)是自动驾驶和机器人的关键任务。由于点云固有的稀疏性,现有方法面临双重冗余问题但仅解决了一半:(1) 空间冗余——大量不相关的背景点淹没了少量目标特征,造成严重的信噪比问题和计算浪费;(2) 信息冗余——前景内部并非所有点同等重要,车辆引擎盖上大面积平坦表面的点提供模糊的定位线索(类似光流中的孔径问题),而角点/边缘处的点才具有唯一的结构信息。现有方法(如P2P、MBPTrack)仅处理空间冗余,前景信息冗余导致特征矩阵低秩、定位精度受限。

方法详解

整体框架

CompTrack由两阶段组成:(1) Pillar编码器将原始点云转化为BEV特征图;(2) SFP过滤背景噪声(解决空间冗余);(3) IB-DTC将前景压缩为紧凑的代理token(解决信息冗余);(4) 预测头直接回归目标参数(x,y,z,θ)。

关键设计

  1. 空间前景预测器(SFP):从信息论角度证明当BEV中占用概率p≪1时,过滤空/背景pillar理论上是无损的。具体实现为轻量CNN(使用分组卷积),对模板和搜索区域的拼接BEV特征预测空间重要性热图,用高斯圆GT(以真实框中心为峰值)做MSE监督训练
  2. 信息瓶颈引导的动态Token压缩(IB-DTC):核心是将前景压缩问题形式化为信息瓶颈优化,以低秩近似作为实际替代方案。利用在线SVD分析前景特征矩阵的奇异值分布,根据能量保持阈值τ动态确定有效秩K,然后从可学习query池中选取前K个query并与SVD先验融合(Q_act = S_K·Q_learn + Q_SVD),最后通过交叉注意力生成K个代理token。由于SVD仅用于决定整数索引而非反传梯度,整个模块端到端可训练
  3. 自适应掩码训练策略:由于K对每个样本动态变化,训练时保持张量维度固定为最大长度L,通过二值掩码使非活跃query的注意力权重在softmax后归零,梯度仅流过自适应选择的K个活跃query

损失函数 / 训练策略

  • 总损失 = θ₁·L_pred(SFP热图的MSE) + θ₂·L_track(跟踪回归损失)
  • 跟踪损失 = λ₁·L_(x,y) + λ₂·L_z + λ₃·L_rot
  • SVD压缩模块不需要额外的稀疏正则化,压缩比直接由数据的内在秩决定
  • SVD计算仅需<1ms (RTX 3090),开销可忽略

实验关键数据

主实验

KITTI数据集(Success/Precision):

方法 Car Ped Van Cyclist Mean FPS
P2P (IJCV'25) 73.6/85.7 69.6/94.0 70.3/83.9 75.5/94.6 71.7/89.4 65
CompTrack 73.4/85.2 69.5/94.7 68.5/82.5 76.0/94.8 71.4/89.3 90
MBPTrack 73.4/84.8 68.6/93.9 61.3/72.7 76.7/94.3 70.3/87.9 50
CXTrack 69.1/81.6 67.0/91.5 60.0/71.8 74.2/94.3 67.5/85.3 34

消融实验

  • SFP移除:前景区域混入大量背景噪声,跟踪精度显著下降
  • IB-DTC移除:前景冗余token保留,效率降低且精度微降
  • SVD先验移除(仅用可学习query):压缩比变为固定,动态适应性丧失
  • 可学习query移除(仅用SVD基):缺乏任务特异性适配,精度下降
  • 能量保持阈值τ:0.9-0.95范围内效果最佳

关键发现

  • CompTrack在KITTI上与P2P持平(71.4 vs 71.7)但快1.4倍(90 vs 65 FPS)
  • 在大规模nuScenes和Waymo上达到新SOTA
  • FLOPs仅0.94G,是P2P的76%
  • 双冗余消除的分治策略有效:SFP负责空间粗筛,IB-DTC负责信息精炼

亮点与洞察

  • 信息瓶颈理论+低秩近似为token压缩提供了严谨的理论基础,不是启发式设计
  • 在线SVD动态决定压缩比的思路新颖——不同目标(如紧凑车辆 vs 复杂行人)自动获得不同的压缩率
  • SVD先验+可学习query的混合方式巧妙绕过了SVD不可微的问题
  • 从孔径问题的角度理解点云信息冗余,建立了2D视觉与3D跟踪的理论桥梁

局限与展望

  • KITTI上并未超越P2P的平均指标,优势主要体现在效率和大规模数据集
  • 代码未开源,可复现性待验证
  • BEV表示可能在垂直方向丢失信息,对高层建筑等场景有限制
  • 未探索多目标跟踪和遮挡场景

相关工作与启发

  • 信息瓶颈引导的token压缩可推广到2D视觉Transformer(如ViT的token剪枝)
  • 在线SVD估计有效秩的方法可用于任何需要动态决定计算量的场景
  • 空间-信息双重冗余消除的分治思路可迁移到其他稀疏数据任务(如雷达、事件相机)
  • 点云稀疏性中的"孔径问题"类比是一个有价值的理论视角
  • PillarHist的BEV编码方式兼顾了细粒度几何保持和计算效率

核心公式

  • 信息瓶颈目标:min I(X_fg; X_proxy) s.t. I(X_proxy; y) ≥ I₀
  • 低秩近似误差:||X_fg - X_proxy||²_F = Σᵢ₌ₖ₊₁ᴺ σᵢ²(奇异值快速衰减使误差可忽略)
  • 能量保持:K = min{k : Σᵢ₌₁ᵏ σᵢ² ≥ τ · Σⱼ₌₁ᴺ σⱼ²}
  • 混合query:Q_act = S_K · Q_learn + Q_SVD(SVD先验+可学习适配)

效率分析

方法 FLOPs FPS 设备 Mean(KITTI)
CompTrack 0.94G 90 3090 71.4/89.3
P2P 1.23G 65 3090 71.7/89.4
MBPTrack 2.88G 50 3090 70.3/87.9
CXTrack 4.63G 34 3090 67.5/85.3

评分

维度 分数 (1-5) 说明
创新性 4 信息瓶颈+SVD引导的动态压缩,理论基础扎实
技术深度 5 从信息论到低秩近似到端到端可微的完整推导
实验充分性 4 KITTI/nuScenes/Waymo三个基准,充分消融
写作质量 4 理论动机和方法推导清晰
实用价值 4 90FPS实时性能,自动驾驶直接适用

相关论文