CompTrack: Information Bottleneck-Guided Low-Rank Dynamic Token Compression for Point Cloud Tracking¶

会议: AAAI 2026 (Oral)
arXiv: 2511.15580
代码: 无
领域: 3D视觉 / 点云跟踪
关键词: 3D单目标跟踪, 点云, Token压缩, 信息瓶颈, 低秩近似

一句话总结¶

提出CompTrack——首个同时解决LiDAR点云中空间冗余和信息冗余双重挑战的3D单目标跟踪框架：空间前景预测器(SFP)基于信息熵过滤背景噪声，信息瓶颈引导的动态Token压缩(IB-DTC)模块利用在线SVD估计有效秩并将前景压缩为紧凑代理token；在nuScenes和Waymo上达到SOTA，同时以90 FPS实时运行。

研究背景与动机¶

基于LiDAR点云的3D单目标跟踪(SOT)是自动驾驶和机器人的关键任务。由于点云固有的稀疏性，现有方法面临双重冗余问题但仅解决了一半：(1) 空间冗余——大量不相关的背景点淹没了少量目标特征，造成严重的信噪比问题和计算浪费；(2) 信息冗余——前景内部并非所有点同等重要，车辆引擎盖上大面积平坦表面的点提供模糊的定位线索（类似光流中的孔径问题），而角点/边缘处的点才具有唯一的结构信息。现有方法（如P2P、MBPTrack）仅处理空间冗余，前景信息冗余导致特征矩阵低秩、定位精度受限。

方法详解¶

整体框架¶

CompTrack由两阶段组成：(1) Pillar编码器将原始点云转化为BEV特征图；(2) SFP过滤背景噪声（解决空间冗余）；(3) IB-DTC将前景压缩为紧凑的代理token（解决信息冗余）；(4) 预测头直接回归目标参数(x,y,z,θ)。

关键设计¶

空间前景预测器(SFP)：从信息论角度证明当BEV中占用概率p≪1时，过滤空/背景pillar理论上是无损的。具体实现为轻量CNN（使用分组卷积），对模板和搜索区域的拼接BEV特征预测空间重要性热图，用高斯圆GT（以真实框中心为峰值）做MSE监督训练
信息瓶颈引导的动态Token压缩(IB-DTC)：核心是将前景压缩问题形式化为信息瓶颈优化，以低秩近似作为实际替代方案。利用在线SVD分析前景特征矩阵的奇异值分布，根据能量保持阈值τ动态确定有效秩K，然后从可学习query池中选取前K个query并与SVD先验融合(Q_act = S_K·Q_learn + Q_SVD)，最后通过交叉注意力生成K个代理token。由于SVD仅用于决定整数索引而非反传梯度，整个模块端到端可训练
自适应掩码训练策略：由于K对每个样本动态变化，训练时保持张量维度固定为最大长度L，通过二值掩码使非活跃query的注意力权重在softmax后归零，梯度仅流过自适应选择的K个活跃query

损失函数 / 训练策略¶

总损失 = θ₁·L_pred(SFP热图的MSE) + θ₂·L_track(跟踪回归损失)
跟踪损失 = λ₁·L_(x,y) + λ₂·L_z + λ₃·L_rot
SVD压缩模块不需要额外的稀疏正则化，压缩比直接由数据的内在秩决定
SVD计算仅需<1ms (RTX 3090)，开销可忽略

实验关键数据¶

主实验¶

KITTI数据集（Success/Precision）：

方法	Car	Ped	Van	Cyclist	Mean	FPS
P2P (IJCV'25)	73.6/85.7	69.6/94.0	70.3/83.9	75.5/94.6	71.7/89.4	65
CompTrack	73.4/85.2	69.5/94.7	68.5/82.5	76.0/94.8	71.4/89.3	90
MBPTrack	73.4/84.8	68.6/93.9	61.3/72.7	76.7/94.3	70.3/87.9	50
CXTrack	69.1/81.6	67.0/91.5	60.0/71.8	74.2/94.3	67.5/85.3	34

消融实验¶

SFP移除：前景区域混入大量背景噪声，跟踪精度显著下降
IB-DTC移除：前景冗余token保留，效率降低且精度微降
SVD先验移除（仅用可学习query）：压缩比变为固定，动态适应性丧失
可学习query移除（仅用SVD基）：缺乏任务特异性适配，精度下降
能量保持阈值τ：0.9-0.95范围内效果最佳

关键发现¶

CompTrack在KITTI上与P2P持平(71.4 vs 71.7)但快1.4倍(90 vs 65 FPS)
在大规模nuScenes和Waymo上达到新SOTA
FLOPs仅0.94G，是P2P的76%
双冗余消除的分治策略有效：SFP负责空间粗筛，IB-DTC负责信息精炼

亮点与洞察¶

信息瓶颈理论+低秩近似为token压缩提供了严谨的理论基础，不是启发式设计
在线SVD动态决定压缩比的思路新颖——不同目标（如紧凑车辆 vs 复杂行人）自动获得不同的压缩率
SVD先验+可学习query的混合方式巧妙绕过了SVD不可微的问题
从孔径问题的角度理解点云信息冗余，建立了2D视觉与3D跟踪的理论桥梁

局限与展望¶

KITTI上并未超越P2P的平均指标，优势主要体现在效率和大规模数据集
代码未开源，可复现性待验证
BEV表示可能在垂直方向丢失信息，对高层建筑等场景有限制
未探索多目标跟踪和遮挡场景

核心公式¶

信息瓶颈目标：min I(X_fg; X_proxy) s.t. I(X_proxy; y) ≥ I₀
低秩近似误差：||X_fg - X_proxy||²_F = Σᵢ₌ₖ₊₁ᴺ σᵢ²（奇异值快速衰减使误差可忽略）
能量保持：K = min{k : Σᵢ₌₁ᵏ σᵢ² ≥ τ · Σⱼ₌₁ᴺ σⱼ²}
混合query：Q_act = S_K · Q_learn + Q_SVD（SVD先验+可学习适配）

效率分析¶

方法	FLOPs	FPS	设备	Mean(KITTI)
CompTrack	0.94G	90	3090	71.4/89.3
P2P	1.23G	65	3090	71.7/89.4
MBPTrack	2.88G	50	3090	70.3/87.9
CXTrack	4.63G	34	3090	67.5/85.3

评分¶

维度	分数 (1-5)	说明
创新性	4	信息瓶颈+SVD引导的动态压缩，理论基础扎实
技术深度	5	从信息论到低秩近似到端到端可微的完整推导
实验充分性	4	KITTI/nuScenes/Waymo三个基准，充分消融
写作质量	4	理论动机和方法推导清晰
实用价值	4	90FPS实时性能，自动驾驶直接适用