Redundant Queries in DETR-Based 3D Detection: Unnecessary and Prunable¶

会议: AAAI 2026
arXiv: 2412.02054
代码: 待确认
领域: 3D视觉 / 3D目标检测
关键词: 3D 目标检测, DETR, Query Pruning, 模型压缩, 自动驾驶

一句话总结¶

提出 GPQ（Gradually Pruning Queries），通过分类分数逐步裁剪 DETR 系 3D 检测器中大量冗余的 object queries，无需额外可学习参数，可直接在预训练 checkpoint 上微调完成，在边缘设备上最高实现 67.86% FLOPs 减少和 65.16% 推理时间下降。

研究背景与动机¶

问题背景¶

DETR 系列方法在 3D 目标检测中被广泛使用，其核心机制是通过预定义的 object queries 在 transformer 层中与图像特征交互来产生检测结果。然而，这些方法通常需要设置远超实际目标数量的 queries（如 900 个），而 nuScenes 等场景中待检测目标通常不超过 100 个。这导致正负样本比可达 8:1，大量 queries 在匈牙利匹配中被反复匹配为负样本，分类分数被持续压低。

核心观察¶

作者统计了 PETR、PETRv2、FocalPETR、StreamPETR 等方法在推理时各 query 被选为最终结果的频率，发现分布极度不均衡：少量 query 承担了绝大部分检测任务，而很多 query 几乎从未被选中为最终预测结果，甚至在 PETR 中有完全未被选中的 query。

现有方法的局限¶

传统 transformer 剪枝方法（如注意力头剪枝、token 剪枝）难以直接应用于 3D 检测：

剪枝目标不存在：3D 检测中的注意力头是通过 reshape 实现的，修改数量不影响计算量
结构不一致：3D 检测中 query 和 key 维度不等（\(N_q \neq N_k\)），注意力矩阵非方阵
数据量差异：3D 检测产生的 token 数远多于 ViT（至少 4000 个 vs. 不到 200 个），token 剪枝开销过大

方法详解¶

核心思路¶

将每个 query 视为最小剪枝单元，以分类分数作为剪枝标准。分类分数最低的 query 贡献最小，优先被移除。

GPQ 算法流程¶

加载预训练 checkpoint：从包含大量 queries 的已训练模型出发
正常前向推理：每次迭代后获取各 query 的分类分数
定期剪枝：每 \(n\) 次迭代触发一次剪枝，选出分类分数最低的 query 并永久移除
重复直至目标数量：从初始 \(N_q\) 逐步减少到 \(N_q'\)

整个过程不引入任何额外可学习参数，也不需要 learnable binary mask，可在几个 epoch 内完成。

理论分析：为什么剪枝有效¶

query 之间的独立性是关键。在 MLP 和 cross-attention 中，query 矩阵 \(Q\) 只出现一次，按矩阵乘法的行独立性（\(AB \equiv \text{Concat}_{i}(A_i B)\)），删除某行不影响其他行的结果。唯一的影响来自 self-attention——因为 \(Q\) 同时作为 query、key 和 value。但作者论证 self-attention 对图像特征的间接采样影响远小于 cross-attention 的直接交互，因此移除低贡献 query 产生的干扰很小。

为什么不直接用少量 queries 训练¶

作者可视化了参考点分布：从 900 剪枝到 300 的 query 仍保持聚集、有序的分布（继承了大规模训练的知识），而直接用 300 query 训练则分布散乱，表示能力较弱。GPQ 还可从一个 checkpoint 灵活生成不同 query 数量的模型版本。

实验¶

实验设置¶

数据集：nuScenes（23000+ 样本，6 个环视相机，10 个类别）
检测器：DETR3D、PETR、PETRv2、FocalPETR、StreamPETR、RayDN
评估指标：mAP、NDS、各类误差指标（mATE/mASE/mAOE/mAVE/mAAE）、FPS、GFLOPs

主要结果（Table 2）¶

模型	Backbone	Queries	mAP	NDS	FPS
PETR	ResNet50	900/-	31.74%	0.3668	6.9
PETR	ResNet50	300/-(从头训)	31.19%	0.3536	8.9
PETR	ResNet50	900→300(GPQ)	32.85%	0.3884	8.9
PETR	ResNet50	900→150(GPQ)	30.52%	0.3671	9.3
StreamPETR	ResNet50	900/-	37.83%	0.4734	16.1
StreamPETR	ResNet50	300/-(从头训)	33.62%	0.4429	18.5
StreamPETR	ResNet50	900→300(GPQ)	39.42%	0.4941	18.7
FocalPETR	ResNet50	900/-	32.44%	0.3752	16.4
FocalPETR	ResNet50	900→300(GPQ)	33.17%	0.3925	19.6

关键发现：PETR、FocalPETR、StreamPETR 通过 GPQ 将 900 剪枝到 300 后，mAP 甚至超过了用 900 queries 从头训练的基线。PETR 加速达 1.35x。

边缘设备部署结果（Table 3 - Jetson Nano B01）¶

模型	Backbone	Queries	GFLOPs	时间(ms)	FLOPs 减少	时间减少
StreamPETR	ResNet18	900	172.08	1520	-	-
StreamPETR	ResNet18	900→300	123.90	916	28.00%	39.74%
StreamPETR	ResNet18	900→150	112.51	791	34.62%	47.96%
StreamPETR	w/o backbone	900	87.78	1030	-	-
StreamPETR	w/o backbone	900→150	28.21	359	67.86%	65.16%

去除 backbone 后纯 transformer 部分加速更为显著，表明 GPQ 精确作用于计算瓶颈。

消融实验¶

剪枝标准（Table 5）：按最高分类分数剪枝（GPQ-H）性能显著下降（mAP 34.34%），用匹配 cost 剪枝（GPQ-C）达 38.78%，而 GPQ 按最低分类分数剪枝最优（39.42%）
渐进 vs. 一步剪枝：一次性剪掉 600 个 query（GPQ-1）mAP 仅 35.71%，远低于渐进策略的 39.42%，验证了逐步剪枝的必要性
与其他方法比较（Table 4）：ToMe（token merging）在 3D 检测上反而变慢（相似度矩阵计算开销太大），GBC 可加速但会导致检测精度下降；GPQ 兼顾速度和精度
完全收敛模型（Table 6）：对训练 90 epoch 的 StreamPETR 做 GPQ，300-query 仍优于从头训 300-query 90 epoch 的模型
训练同步剪枝（Table 7）：GPQ 可在训练过程中同步执行，无需先完整训练再剪枝

亮点与创新¶

极简有效：不引入任何可学习参数，仅靠分类分数排序+渐进删除，实现无损甚至涨点的 query 剪枝
即插即用：作为微调步骤可直接接入任何 DETR 系检测器的预训练 checkpoint，一个 checkpoint 可灵活导出多个轻量版本
首次聚焦 query 冗余：系统分析了 3D 检测中 query 选择频率的不均衡现象，填补了该方向的空白
边缘部署友好：在 Jetson Nano 上验证了显著的实际加速效果

局限性¶

仅在 nuScenes 数据集上验证，未涉及 Waymo、KITTI 等其他 3D 检测基准
方法依赖分类分数作为剪枝准则，对于分类分数分布均匀的场景可能效果下降
未考虑 query 的空间分布——仅按分数剪枝可能导致某些空间区域覆盖不足
边缘设备实验使用随机 dummy 输入而非真实数据，实际推理加速可能受 I/O 等因素影响
对 2D 检测（ConditionalDETR）仅做了初步验证，通用性有待更广泛验证

评分¶

维度	分数
新颖性	⭐⭐⭐
理论深度	⭐⭐⭐
实验充分性	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐

总评：⭐⭐⭐⭐ — 方法极简但切中实际痛点，实验覆盖多种检测器和部署场景，对工业界部署 DETR 系检测器有直接参考价值。新颖性主要体现在"发现并系统验证 query 冗余"这一 observation，技术本身较为直观。