CompTrack: 信息瓶颈引导的低秩动态Token压缩用于点云跟踪 (Oral)¶
会议: AAAI 2026
arXiv: 2511.15580v3
代码: 暂无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, 信息瓶颈, Token压缩, SVD低秩近似
一句话总结¶
针对LiDAR点云3D单目标跟踪中的"双重冗余"问题(空间冗余:大量背景噪声;信息冗余:前景中大量不具区分性的平面点),提出SFP前景预测器+IB-DTC信息瓶颈引导动态Token压缩两个模块,在KITTI/nuScenes/Waymo上达到SOTA,90 FPS实时运行(比P2P快1.4倍)。
核心问题¶
LiDAR点云具有极强的稀疏性,导致3D跟踪面临两个层面的冗余: 1. 空间冗余:大量背景/空白点淹没了少量目标特征,造成严重的信噪问题 2. 信息冗余:即使在前景中,也不是所有点都同等有用——车辆引擎盖上的平面点提供的定位信息很弱(类似2D中的"光流孔径问题"),而边角交点才是高信息量区域。这导致前景特征矩阵具有"低有效秩"的特性
现有方法(M2Track、P2P等)主要处理空间冗余,忽略了信息冗余。
关键方法¶
-
空间前景预测器 (SFP):轻量级CNN(使用group convolution),将template和search的BEV特征拼接后预测前景热力图。用中心点高斯圆作为GT训练。从信息熵角度证明:当占用概率p很小时,过滤空白区域几乎是无信息损失的。
-
信息瓶颈引导的动态Token压缩 (IB-DTC):这是核心贡献。
- 理论基础:将压缩目标与信息瓶颈(IB)原理对齐——找到一个压缩表示,丢弃对预测目标运动状态无用的信息
- 实际实现:用SVD低秩近似作为IB的可操作替代。对前景特征做在线SVD,奇异值快速衰减(证明了低秩性),根据能量保留阈值τ动态确定有效秩K
- SVD引导的动态Token压缩:
- 在线SVD确定K和最优基Q_SVD
- 维护L个可学习查询Q_learn,动态选前K个
- 最终查询 Q_act = S_K(Q_learn) + Q_SVD(残差学习思想)
- 用Q_act对前景token做cross-attention得到K个紧凑的代理token
- SVD本身不可微,但只用来确定整数索引K做切片,梯度通过可学习查询和cross-attention流动
-
训练时用自适应掩码处理batch内不同样本K不同的问题
-
预测头:用压缩后的代理token直接回归目标参数(x,y,z,θ)
亮点 / 我学到了什么¶
- "双重冗余"问题定义非常精准:不只是背景噪声,前景本身也存在大量冗余。这个insight对很多点云任务都有价值。
- SVD做在线秩估计+可学习查询做任务适配的组合很巧妙:SVD提供数据驱动的压缩比决策(不是超参数!),可学习查询在此基础上做残差适配。两者互补:SVD-only和Learnable-only都不如组合效果好。
- 信息瓶颈理论的实际应用:把抽象的IB原理转化为可操作的SVD低秩近似,然后进一步用可微设计包装——这种"理论→近似→工程"的路径很值得学习。
- 极高的效率:0.94G FLOPs, 90 FPS, 远优于其他方法。压缩后平均只需约78个代理token来表征前景。
- 能量保留阈值τ鲁棒:在0.99-0.999范围内不敏感,说明方法稳健。
局限性 / 可改进方向¶
- 在极度稀疏场景(目标部分可见)性能仍有限
- 仅使用LiDAR点云,未融合RGB信息
- BEV编码可能丢失高度方向信息
- 潜在扩展:
- 将IB-DTC思路迁移到2D视觉Transformer的token压缩中
- 结合多帧时序信息增强运动建模
- 融合RGB提供互补的外观线索
实验关键数据¶
KITTI (Success/Precision)¶
| 方法 | Mean | Car | Pedestrian | FPS |
|---|---|---|---|---|
| P2P | 71.7/89.4 | 73.6/85.7 | 69.6/94.0 | 65 |
| CompTrack | 71.4/89.3 | 73.4/85.2 | 69.5/94.7 | 90 |
nuScenes (Success/Precision)¶
| 方法 | Mean | Car | Pedestrian | FPS |
|---|---|---|---|---|
| MBPTrack | 57.48/69.88 | 62.47/70.41 | 45.32/74.03 | 50 |
| P2P | 59.22/71.19 | 64.61/71.98 | 45.64/74.62 | 65 |
| CompTrack | 61.04/73.68 | 65.70/73.50 | 47.86/77.52 | 90 |
Waymo (Success/Precision, KITTI预训练zero-shot)¶
| 方法 | Mean | Vehicle Mean | Pedestrian Mean |
|---|---|---|---|
| P2P | 47.2/62.9 | 60.0/69.1 | 37.4/58.1 |
| CompTrack | 48.6/65.7 | 61.2/69.6 | 39.0/62.7 |
与我的研究方向的关联¶
- Token压缩的通用思路:IB-DTC的"在线SVD估计有效秩→动态确定压缩比→可学习查询做任务适配"这条路线可以迁移到视觉Transformer、多模态模型的token减少中
- 信息瓶颈原理的工程化实现方式值得借鉴
- 如果做高效视觉模型相关研究,这种"理论引导的自适应压缩"比固定比例剪枝/合并更有前景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(信息瓶颈+SVD引导的动态压缩,理论扎实)
- 实验充分度: ⭐⭐⭐⭐⭐(3个benchmark + 丰富消融)
- 写作质量: ⭐⭐⭐⭐⭐(问题定义清晰,从理论到方法再到实验逻辑通顺)
- 对我的价值: ⭐⭐⭐⭐⭐(Token压缩思路通用性极强)