CompTrack: 信息瓶颈引导的低秩动态Token压缩用于点云跟踪 (Oral)¶

会议: AAAI 2026
arXiv: 2511.15580v3
代码: 暂无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, 信息瓶颈, Token压缩, SVD低秩近似

一句话总结¶

针对LiDAR点云3D单目标跟踪中的"双重冗余"问题（空间冗余：大量背景噪声；信息冗余：前景中大量不具区分性的平面点），提出SFP前景预测器+IB-DTC信息瓶颈引导动态Token压缩两个模块，在KITTI/nuScenes/Waymo上达到SOTA，90 FPS实时运行（比P2P快1.4倍）。

核心问题¶

LiDAR点云具有极强的稀疏性，导致3D跟踪面临两个层面的冗余： 1. 空间冗余：大量背景/空白点淹没了少量目标特征，造成严重的信噪问题 2. 信息冗余：即使在前景中，也不是所有点都同等有用——车辆引擎盖上的平面点提供的定位信息很弱（类似2D中的"光流孔径问题"），而边角交点才是高信息量区域。这导致前景特征矩阵具有"低有效秩"的特性

现有方法（M2Track、P2P等）主要处理空间冗余，忽略了信息冗余。

关键方法¶

空间前景预测器 (SFP)：轻量级CNN（使用group convolution），将template和search的BEV特征拼接后预测前景热力图。用中心点高斯圆作为GT训练。从信息熵角度证明：当占用概率p很小时，过滤空白区域几乎是无信息损失的。
信息瓶颈引导的动态Token压缩 (IB-DTC)：这是核心贡献。
理论基础：将压缩目标与信息瓶颈(IB)原理对齐——找到一个压缩表示，丢弃对预测目标运动状态无用的信息
实际实现：用SVD低秩近似作为IB的可操作替代。对前景特征做在线SVD，奇异值快速衰减（证明了低秩性），根据能量保留阈值τ动态确定有效秩K
SVD引导的动态Token压缩：
- 在线SVD确定K和最优基Q_SVD
- 维护L个可学习查询Q_learn，动态选前K个
- 最终查询 Q_act = S_K(Q_learn) + Q_SVD（残差学习思想）
- 用Q_act对前景token做cross-attention得到K个紧凑的代理token
SVD本身不可微，但只用来确定整数索引K做切片，梯度通过可学习查询和cross-attention流动
训练时用自适应掩码处理batch内不同样本K不同的问题
预测头：用压缩后的代理token直接回归目标参数(x,y,z,θ)

亮点 / 我学到了什么¶

"双重冗余"问题定义非常精准：不只是背景噪声，前景本身也存在大量冗余。这个insight对很多点云任务都有价值。
SVD做在线秩估计+可学习查询做任务适配的组合很巧妙：SVD提供数据驱动的压缩比决策（不是超参数！），可学习查询在此基础上做残差适配。两者互补：SVD-only和Learnable-only都不如组合效果好。
信息瓶颈理论的实际应用：把抽象的IB原理转化为可操作的SVD低秩近似，然后进一步用可微设计包装——这种"理论→近似→工程"的路径很值得学习。
极高的效率：0.94G FLOPs, 90 FPS, 远优于其他方法。压缩后平均只需约78个代理token来表征前景。
能量保留阈值τ鲁棒：在0.99-0.999范围内不敏感，说明方法稳健。

局限性 / 可改进方向¶

在极度稀疏场景（目标部分可见）性能仍有限
仅使用LiDAR点云，未融合RGB信息
BEV编码可能丢失高度方向信息
潜在扩展：
将IB-DTC思路迁移到2D视觉Transformer的token压缩中
结合多帧时序信息增强运动建模
融合RGB提供互补的外观线索

实验关键数据¶

KITTI (Success/Precision)¶

方法	Mean	Car	Pedestrian	FPS
P2P	71.7/89.4	73.6/85.7	69.6/94.0	65
CompTrack	71.4/89.3	73.4/85.2	69.5/94.7	90

nuScenes (Success/Precision)¶

方法	Mean	Car	Pedestrian	FPS
MBPTrack	57.48/69.88	62.47/70.41	45.32/74.03	50
P2P	59.22/71.19	64.61/71.98	45.64/74.62	65
CompTrack	61.04/73.68	65.70/73.50	47.86/77.52	90

Waymo (Success/Precision, KITTI预训练zero-shot)¶

方法	Mean	Vehicle Mean	Pedestrian Mean
P2P	47.2/62.9	60.0/69.1	37.4/58.1
CompTrack	48.6/65.7	61.2/69.6	39.0/62.7

与我的研究方向的关联¶

Token压缩的通用思路：IB-DTC的"在线SVD估计有效秩→动态确定压缩比→可学习查询做任务适配"这条路线可以迁移到视觉Transformer、多模态模型的token减少中
信息瓶颈原理的工程化实现方式值得借鉴
如果做高效视觉模型相关研究，这种"理论引导的自适应压缩"比固定比例剪枝/合并更有前景

评分¶

新颖性: ⭐⭐⭐⭐⭐（信息瓶颈+SVD引导的动态压缩，理论扎实）
实验充分度: ⭐⭐⭐⭐⭐（3个benchmark + 丰富消融）
写作质量: ⭐⭐⭐⭐⭐（问题定义清晰，从理论到方法再到实验逻辑通顺）
对我的价值: ⭐⭐⭐⭐⭐（Token压缩思路通用性极强）