跳转至

CompTrack: 信息瓶颈引导的低秩动态Token压缩用于点云跟踪 (Oral)

会议: AAAI 2026
arXiv: 2511.15580v3
代码: 暂无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, 信息瓶颈, Token压缩, SVD低秩近似

一句话总结

针对LiDAR点云3D单目标跟踪中的"双重冗余"问题(空间冗余:大量背景噪声;信息冗余:前景中大量不具区分性的平面点),提出SFP前景预测器+IB-DTC信息瓶颈引导动态Token压缩两个模块,在KITTI/nuScenes/Waymo上达到SOTA,90 FPS实时运行(比P2P快1.4倍)。

核心问题

LiDAR点云具有极强的稀疏性,导致3D跟踪面临两个层面的冗余: 1. 空间冗余:大量背景/空白点淹没了少量目标特征,造成严重的信噪问题 2. 信息冗余:即使在前景中,也不是所有点都同等有用——车辆引擎盖上的平面点提供的定位信息很弱(类似2D中的"光流孔径问题"),而边角交点才是高信息量区域。这导致前景特征矩阵具有"低有效秩"的特性

现有方法(M2Track、P2P等)主要处理空间冗余,忽略了信息冗余。

关键方法

  1. 空间前景预测器 (SFP):轻量级CNN(使用group convolution),将template和search的BEV特征拼接后预测前景热力图。用中心点高斯圆作为GT训练。从信息熵角度证明:当占用概率p很小时,过滤空白区域几乎是无信息损失的。

  2. 信息瓶颈引导的动态Token压缩 (IB-DTC):这是核心贡献。

  3. 理论基础:将压缩目标与信息瓶颈(IB)原理对齐——找到一个压缩表示,丢弃对预测目标运动状态无用的信息
  4. 实际实现:用SVD低秩近似作为IB的可操作替代。对前景特征做在线SVD,奇异值快速衰减(证明了低秩性),根据能量保留阈值τ动态确定有效秩K
  5. SVD引导的动态Token压缩
    • 在线SVD确定K和最优基Q_SVD
    • 维护L个可学习查询Q_learn,动态选前K个
    • 最终查询 Q_act = S_K(Q_learn) + Q_SVD(残差学习思想)
    • 用Q_act对前景token做cross-attention得到K个紧凑的代理token
  6. SVD本身不可微,但只用来确定整数索引K做切片,梯度通过可学习查询和cross-attention流动
  7. 训练时用自适应掩码处理batch内不同样本K不同的问题

  8. 预测头:用压缩后的代理token直接回归目标参数(x,y,z,θ)

亮点 / 我学到了什么

  • "双重冗余"问题定义非常精准:不只是背景噪声,前景本身也存在大量冗余。这个insight对很多点云任务都有价值。
  • SVD做在线秩估计+可学习查询做任务适配的组合很巧妙:SVD提供数据驱动的压缩比决策(不是超参数!),可学习查询在此基础上做残差适配。两者互补:SVD-only和Learnable-only都不如组合效果好。
  • 信息瓶颈理论的实际应用:把抽象的IB原理转化为可操作的SVD低秩近似,然后进一步用可微设计包装——这种"理论→近似→工程"的路径很值得学习。
  • 极高的效率:0.94G FLOPs, 90 FPS, 远优于其他方法。压缩后平均只需约78个代理token来表征前景。
  • 能量保留阈值τ鲁棒:在0.99-0.999范围内不敏感,说明方法稳健。

局限性 / 可改进方向

  • 在极度稀疏场景(目标部分可见)性能仍有限
  • 仅使用LiDAR点云,未融合RGB信息
  • BEV编码可能丢失高度方向信息
  • 潜在扩展
  • 将IB-DTC思路迁移到2D视觉Transformer的token压缩中
  • 结合多帧时序信息增强运动建模
  • 融合RGB提供互补的外观线索

实验关键数据

KITTI (Success/Precision)

方法 Mean Car Pedestrian FPS
P2P 71.7/89.4 73.6/85.7 69.6/94.0 65
CompTrack 71.4/89.3 73.4/85.2 69.5/94.7 90

nuScenes (Success/Precision)

方法 Mean Car Pedestrian FPS
MBPTrack 57.48/69.88 62.47/70.41 45.32/74.03 50
P2P 59.22/71.19 64.61/71.98 45.64/74.62 65
CompTrack 61.04/73.68 65.70/73.50 47.86/77.52 90

Waymo (Success/Precision, KITTI预训练zero-shot)

方法 Mean Vehicle Mean Pedestrian Mean
P2P 47.2/62.9 60.0/69.1 37.4/58.1
CompTrack 48.6/65.7 61.2/69.6 39.0/62.7

与我的研究方向的关联

  • Token压缩的通用思路:IB-DTC的"在线SVD估计有效秩→动态确定压缩比→可学习查询做任务适配"这条路线可以迁移到视觉Transformer、多模态模型的token减少中
  • 信息瓶颈原理的工程化实现方式值得借鉴
  • 如果做高效视觉模型相关研究,这种"理论引导的自适应压缩"比固定比例剪枝/合并更有前景

评分

  • 新颖性: ⭐⭐⭐⭐⭐(信息瓶颈+SVD引导的动态压缩,理论扎实)
  • 实验充分度: ⭐⭐⭐⭐⭐(3个benchmark + 丰富消融)
  • 写作质量: ⭐⭐⭐⭐⭐(问题定义清晰,从理论到方法再到实验逻辑通顺)
  • 对我的价值: ⭐⭐⭐⭐⭐(Token压缩思路通用性极强)