CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion¶
会议: CVPR 2026 arXiv: 2603.00682 代码: 无 领域: 自动驾驶 关键词: 协同感知, 通信效率, 点云补全, 早期融合, 向量量化
一句话总结¶
CoLC 提出一种通信高效的早期协同感知框架,通过前景感知点采样(FAPS)减少传输量,结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示,并用稠密引导双对齐(DGDA)保证语义和几何一致性,在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。
研究背景与动机¶
协同感知允许多智能体共享互补信息,克服单智能体的感知盲区和遮挡问题。现有融合策略分为三类:
- 早期融合(Early Fusion):直接传输原始点云,信息保真度最高且天然鲁棒于异构模型,但通信开销极大
- 中间融合(Intermediate Fusion):传输 BEV 特征,通信开销适中但依赖模型一致性
- 晚期融合(Late Fusion):传输检测结果,通信最少但信息损失最大
作者发现了一个关键现象:在早期融合中,仅传输前景点会导致性能大幅下降,甚至不如仅传输背景点。这是因为前景点负责补全物体形状,而背景点提供用于空间对齐的上下文锚点。两者缺一不可,这启发了 CoLC 的设计——同时采样前景和背景点,然后在 ego 端通过补全恢复缺失信息。
方法详解¶
整体框架¶
CoLC 包含三个互补模块:
- FAPS (Foreground-Aware Point Sampling):邻居端执行空间感知的点云采样
- CEEF (Completion-Enhanced Early Fusion):ego 端从稀疏输入重建稠密 pillar 并自适应融合
- DGDA (Dense-Guided Dual Alignment):训练时的语义-几何双对齐监督
关键设计¶
1. 前景感知点采样 (FAPS)¶
对邻居智能体的原始点云 \(\mathcal{X}_j \in \mathbb{R}^{M \times 4}\):
- 前景/背景分离:预训练轻量 MLP 点选择器估计显著性图 \(\mathcal{S}_j \in [0,1]^M\),以阈值 \(\tau_s = 0.5\) 分为前景集 \(\mathcal{X}_j^{fg}\) 和背景集 \(\mathcal{X}_j^{bg}\)
- 前景最远点采样(FG-FPS):对前景点用 FPS 以比率 \(R^{fg}\) 采样,保持物体结构完整性。前景点数量少,FPS 开销可忽略
- 背景随机采样(BG-RPS):背景点数量庞大,用随机采样以比率 \(R^{bg}\) 高效获取稀疏子集
最终传输的是包含采样前景和背景点的稀疏点云。关键洞察:仅 20% 前景 + 适量背景点即可有效支撑检测,过多前景点反而不如更多背景上下文。
2. 补全增强早期融合 (CEEF)¶
核心是 VQ-based pillar 级 LiDAR 补全模块,用于从稀疏 pillar 重建稠密 pillar:
VQ-based LiDAR 补全流程:
(a) 稀疏编码器:Swin Transformer(深度 L=6,嵌入维度 D=128)将稀疏 pillar \(\mathcal{P}^s\) 编码为全局上下文 BEV 表示,投影到量化空间 \(\mathbf{z}^s \in \mathbb{R}^{P \times D_c}\)
(b) 向量量化:维护可学习码本 \(E = \{\mathbf{e}_k\}_{k=0}^{K-1}\)(K=128,\(D_c\)=128),将连续潜向量映射到最近码本条目:
(c) 稠密解码器:将量化嵌入映射回 pillar 空间,输出重建稠密 pillar \(\hat{\mathcal{P}}^d\) 和占用掩码 \(\hat{\mathcal{O}}^d\)
渐进式融合策略(三阶段):
- 初始稀疏早期融合:ego 点云与收到的稀疏邻居点云拼接后 pillar 化为 \(\mathcal{P}_i^{se}\)
- 并行 pillar 补全:对每个邻居的稀疏 pillar 独立补全,保留占用概率 > \(\tau_o\) 的 pillar,并用原始稀疏 pillar 值替换对应位置以保持保真度
- 自适应互补融合:计算空间相关性图 \(\mathcal{W}_{j \to i}\)(通过拼接 + 1×1 卷积 + softmax),加权融合补全 pillar,只更新初始融合中的空 pillar:
3. 稠密引导双对齐 (DGDA)¶
训练时将增强后的早期融合 pillar 与稠密全点云 pillar 在两个空间对齐:
- 语义分布对齐:通道维度 KL 散度
- 几何方向对齐:余弦相似度损失
损失函数 / 训练策略¶
两阶段训练: 1. 先预训练 LiDAR 补全模块至收敛(AdamW,lr=8e-4),损失:
其中 \(\mathcal{L}_{rec}\) 包含占用 BCE 和占用区域 MSE,\(\mathcal{L}_{vq}\) 包含码本损失和承诺损失
- 冻结补全模块,端到端训练完整管线(Adam,lr=2e-3),总损失:
超参数:\(\beta=0.25\),\(\lambda=10\),\(\gamma_1=1000\),\(\gamma_2=10\)
实验关键数据¶
主实验¶
表1:协同 3D 目标检测性能 (AP@0.5/0.7)
| 方法 | V2XSim | OPV2V | V2XSet | DAIR-V2X |
|---|---|---|---|---|
| No Fusion | 73.72/61.65 | 74.42/54.52 | 74.18/57.43 | 64.32/53.27 |
| Early Fusion | 94.68/83.61 | 96.13/90.69 | 94.59/88.00 | 76.51/63.83 |
| Where2comm | 88.45/80.54 | 95.10/88.48 | 90.68/80.48 | 76.70/61.96 |
| ERMVP | 94.35/84.76 | 95.99/89.14 | 93.08/81.91 | 74.73/60.75 |
| CoLC (100%) | 95.14/87.89 | 96.88/92.93 | 95.97/89.81 | 76.71/62.17 |
| CoLC* (50%) | 93.47/85.28 | 96.46/91.95 | 95.05/87.72 | 76.03/62.09 |
CoLC 在传输全点云时 AP@0.7 全面最优,甚至略超早期融合基线(因训练时的补全和对齐正则化减少了过拟合)。CoLC* 仅传输 50% 通信量,仍接近或超过早期融合性能。
推理延迟:CoLC 75.86ms,与 Where2comm (69.7ms)、CoBEVT (84.5ms) 可比,显著快于 ERMVP (100.5ms) 和 V2X-ViT (197.7ms)。
消融实验¶
组件消融(V2XSim,\(R^{fg}\)=0.2)
| FAPS | CEEF | DGDA | AP@0.7 变化 |
|---|---|---|---|
| ✓ | ✗ | ✗ | 性能下降(信息丢失) |
| ✓ | ✓ | ✗ | 显著恢复(补全弥补) |
| ✓ | ✓ | ✓ | 进一步提升(对齐引导) |
VQ vs MAE 补全
| 方法 | IoU ↑ | MSE ↓ | AP@0.5/0.7 ↑ |
|---|---|---|---|
| MAE-based | 0.633 | 0.057 | 88.17/77.55 |
| VQ-based | 0.626 | 0.043 | 88.89/79.28 |
VQ-based 虽然占用 IoU 略低,但 MSE 更小、重建保真度更高,导致检测精度更优。
关键发现¶
- 仅传输前景点效果不如仅传输背景点——背景上下文对早期融合至关重要
- CoLC 对异构模型场景天然鲁棒:中间融合在异构场景可能退化到不如无融合,而 CoLC 始终有效
- 检测性能在补全质量达到阈值(IoU≥0.585, MSE≤0.052)后趋于饱和,提示"够用"即可
- 低带宽下 PC+ACF 组合优于 SEF+ACF,因补全可有效弥补严重稀疏;高带宽下三阶段组合最优
亮点与洞察¶
- 问题定义精准:明确指出早期融合的信息优势和通信瓶颈,通过采样+补全优雅解耦两者
- 前景/背景角色分析透彻:图1的实验直觉清晰——前景不够、背景不能少——直接指导了 FAPS 的设计
- VQ-based 补全选择合理:相比 MAE-based 更适合检测下游任务,离散先验提供更具判别性的 pillar 特征
- 异构鲁棒性是实际部署的关键优势:不同厂商车辆使用不同感知模型时,只有早期融合方案天然兼容
局限性 / 可改进方向¶
- FAPS 中的前景选择器需额外预训练,增加部署复杂度;可探索无监督或自监督替代方案
- 补全模块在训练时冻结,未能端到端联合优化,可能限制性能上限
- 仅评估 LiDAR 3D 检测,未验证在语义分割、跟踪等下游任务的效果
- ICP 对齐引入额外计算成本,在大规模多智能体场景可能成为瓶颈
- 未考虑对抗性攻击或恶意智能体场景下的安全性
相关工作与启发¶
- Where2comm/CoBEVT:中间融合的代表方法,关注"传什么特征"和"怎么压缩",但受限于模型异构性
- STAR:在中间融合中用 MAE 重建被掩码的特征,但不适用于早期融合
- PointPillars:作为 CoLC 的检测骨架,pillar 表示天然适配 VQ 补全
- 思路可延伸到视觉协同感知(传输图像 patch 并补全)和多模态融合
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 4 |
| 实验充分度 | 5 |
| 写作质量 | 4 |
| 实用价值 | 5 |
| 总评 | 4.3 |