CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking¶
会议: AAAI 2026 (Oral)
arXiv: 2511.15580
代码: 无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, Token压缩, 信息瓶颈, 低秩近似
一句话总结¶
提出CompTrack——首个同时解决LiDAR点云中空间冗余和信息冗余双重挑战的3D单目标跟踪框架:空间前景预测器(SFP)基于信息熵过滤背景噪声,信息瓶颈引导的动态Token压缩(IB-DTC)模块利用在线SVD估计有效秩并将前景压缩为紧凑代理token;在nuScenes和Waymo上达到SOTA,同时以90 FPS实时运行。
研究背景与动机¶
基于LiDAR点云的3D单目标跟踪(SOT)是自动驾驶和机器人的关键任务。由于点云固有的稀疏性,现有方法面临双重冗余问题但仅解决了一半:(1) 空间冗余——大量不相关的背景点淹没了少量目标特征,造成严重的信噪比问题和计算浪费;(2) 信息冗余——前景内部并非所有点同等重要,车辆引擎盖上大面积平坦表面的点提供模糊的定位线索(类似光流中的孔径问题),而角点/边缘处的点才具有唯一的结构信息。现有方法(如P2P、MBPTrack)仅处理空间冗余,前景信息冗余导致特征矩阵低秩、定位精度受限。
方法详解¶
整体框架¶
CompTrack由两阶段组成:(1) Pillar编码器将原始点云转化为BEV特征图;(2) SFP过滤背景噪声(解决空间冗余);(3) IB-DTC将前景压缩为紧凑的代理token(解决信息冗余);(4) 预测头直接回归目标参数(x,y,z,θ)。
关键设计¶
- 空间前景预测器(SFP):从信息论角度证明当BEV中占用概率p≪1时,过滤空/背景pillar理论上是无损的。具体实现为轻量CNN(使用分组卷积),对模板和搜索区域的拼接BEV特征预测空间重要性热图,用高斯圆GT(以真实框中心为峰值)做MSE监督训练
- 信息瓶颈引导的动态Token压缩(IB-DTC):核心是将前景压缩问题形式化为信息瓶颈优化,以低秩近似作为实际替代方案。利用在线SVD分析前景特征矩阵的奇异值分布,根据能量保持阈值τ动态确定有效秩K,然后从可学习query池中选取前K个query并与SVD先验融合(Q_act = S_K·Q_learn + Q_SVD),最后通过交叉注意力生成K个代理token。由于SVD仅用于决定整数索引而非反传梯度,整个模块端到端可训练
- 自适应掩码训练策略:由于K对每个样本动态变化,训练时保持张量维度固定为最大长度L,通过二值掩码使非活跃query的注意力权重在softmax后归零,梯度仅流过自适应选择的K个活跃query
损失函数 / 训练策略¶
- 总损失 = θ₁·L_pred(SFP热图的MSE) + θ₂·L_track(跟踪回归损失)
- 跟踪损失 = λ₁·L_(x,y) + λ₂·L_z + λ₃·L_rot
- SVD压缩模块不需要额外的稀疏正则化,压缩比直接由数据的内在秩决定
- SVD计算仅需<1ms (RTX 3090),开销可忽略
实验关键数据¶
主实验¶
KITTI数据集(Success/Precision):
| 方法 | Car | Ped | Van | Cyclist | Mean | FPS |
|---|---|---|---|---|---|---|
| P2P (IJCV'25) | 73.6/85.7 | 69.6/94.0 | 70.3/83.9 | 75.5/94.6 | 71.7/89.4 | 65 |
| CompTrack | 73.4/85.2 | 69.5/94.7 | 68.5/82.5 | 76.0/94.8 | 71.4/89.3 | 90 |
| MBPTrack | 73.4/84.8 | 68.6/93.9 | 61.3/72.7 | 76.7/94.3 | 70.3/87.9 | 50 |
| CXTrack | 69.1/81.6 | 67.0/91.5 | 60.0/71.8 | 74.2/94.3 | 67.5/85.3 | 34 |
消融实验¶
- SFP移除:前景区域混入大量背景噪声,跟踪精度显著下降
- IB-DTC移除:前景冗余token保留,效率降低且精度微降
- SVD先验移除(仅用可学习query):压缩比变为固定,动态适应性丧失
- 可学习query移除(仅用SVD基):缺乏任务特异性适配,精度下降
- 能量保持阈值τ:0.9-0.95范围内效果最佳
关键发现¶
- CompTrack在KITTI上与P2P持平(71.4 vs 71.7)但快1.4倍(90 vs 65 FPS)
- 在大规模nuScenes和Waymo上达到新SOTA
- FLOPs仅0.94G,是P2P的76%
- 双冗余消除的分治策略有效:SFP负责空间粗筛,IB-DTC负责信息精炼
亮点与洞察¶
- 信息瓶颈理论+低秩近似为token压缩提供了严谨的理论基础,不是启发式设计
- 在线SVD动态决定压缩比的思路新颖——不同目标(如紧凑车辆 vs 复杂行人)自动获得不同的压缩率
- SVD先验+可学习query的混合方式巧妙绕过了SVD不可微的问题
- 从孔径问题的角度理解点云信息冗余,建立了2D视觉与3D跟踪的理论桥梁
局限与展望¶
- KITTI上并未超越P2P的平均指标,优势主要体现在效率和大规模数据集
- 代码未开源,可复现性待验证
- BEV表示可能在垂直方向丢失信息,对高层建筑等场景有限制
- 未探索多目标跟踪和遮挡场景
相关工作与启发¶
- 信息瓶颈引导的token压缩可推广到2D视觉Transformer(如ViT的token剪枝)
- 在线SVD估计有效秩的方法可用于任何需要动态决定计算量的场景
- 空间-信息双重冗余消除的分治思路可迁移到其他稀疏数据任务(如雷达、事件相机)
- 点云稀疏性中的"孔径问题"类比是一个有价值的理论视角
- PillarHist的BEV编码方式兼顾了细粒度几何保持和计算效率
核心公式¶
- 信息瓶颈目标:min I(X_fg; X_proxy) s.t. I(X_proxy; y) ≥ I₀
- 低秩近似误差:||X_fg - X_proxy||²_F = Σᵢ₌ₖ₊₁ᴺ σᵢ²(奇异值快速衰减使误差可忽略)
- 能量保持:K = min{k : Σᵢ₌₁ᵏ σᵢ² ≥ τ · Σⱼ₌₁ᴺ σⱼ²}
- 混合query:Q_act = S_K · Q_learn + Q_SVD(SVD先验+可学习适配)
效率分析¶
| 方法 | FLOPs | FPS | 设备 | Mean(KITTI) |
|---|---|---|---|---|
| CompTrack | 0.94G | 90 | 3090 | 71.4/89.3 |
| P2P | 1.23G | 65 | 3090 | 71.7/89.4 |
| MBPTrack | 2.88G | 50 | 3090 | 70.3/87.9 |
| CXTrack | 4.63G | 34 | 3090 | 67.5/85.3 |
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 创新性 | 4 | 信息瓶颈+SVD引导的动态压缩,理论基础扎实 |
| 技术深度 | 5 | 从信息论到低秩近似到端到端可微的完整推导 |
| 实验充分性 | 4 | KITTI/nuScenes/Waymo三个基准,充分消融 |
| 写作质量 | 4 | 理论动机和方法推导清晰 |
| 实用价值 | 4 | 90FPS实时性能,自动驾驶直接适用 |
相关论文¶
- [ICLR 2026] Consistent Low-Rank Approximation
- [ACL 2025] CoLA: Collaborative Low-Rank Adaptation
- [ACL 2025] Low-Rank Interconnected Adaptation across Layers
- [NeurIPS 2025] The Persistence of Neural Collapse Despite Low-Rank Bias
- [ACL 2025] Towards Robust and Efficient Federated Low-Rank Adaptation with Heterogeneous Clients