CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion¶

会议: CVPR 2026 arXiv: 2603.00682 代码: 无领域: 自动驾驶 关键词: 协同感知, 通信效率, 点云补全, 早期融合, 向量量化

一句话总结¶

CoLC 提出一种通信高效的早期协同感知框架，通过前景感知点采样(FAPS)减少传输量，结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示，并用稠密引导双对齐(DGDA)保证语义和几何一致性，在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。

研究背景与动机¶

协同感知允许多智能体共享互补信息，克服单智能体的感知盲区和遮挡问题。现有融合策略分为三类：

早期融合(Early Fusion)：直接传输原始点云，信息保真度最高且天然鲁棒于异构模型，但通信开销极大
中间融合(Intermediate Fusion)：传输 BEV 特征，通信开销适中但依赖模型一致性
晚期融合(Late Fusion)：传输检测结果，通信最少但信息损失最大

作者发现了一个关键现象：在早期融合中，仅传输前景点会导致性能大幅下降，甚至不如仅传输背景点。这是因为前景点负责补全物体形状，而背景点提供用于空间对齐的上下文锚点。两者缺一不可，这启发了 CoLC 的设计——同时采样前景和背景点，然后在 ego 端通过补全恢复缺失信息。

方法详解¶

整体框架¶

CoLC 包含三个互补模块：

FAPS (Foreground-Aware Point Sampling)：邻居端执行空间感知的点云采样
CEEF (Completion-Enhanced Early Fusion)：ego 端从稀疏输入重建稠密 pillar 并自适应融合
DGDA (Dense-Guided Dual Alignment)：训练时的语义-几何双对齐监督

关键设计¶

1. 前景感知点采样 (FAPS)¶

对邻居智能体的原始点云 \(\mathcal{X}_j \in \mathbb{R}^{M \times 4}\)：

前景/背景分离：预训练轻量 MLP 点选择器估计显著性图 \(\mathcal{S}_j \in [0,1]^M\)，以阈值 \(\tau_s = 0.5\) 分为前景集 \(\mathcal{X}_j^{fg}\) 和背景集 \(\mathcal{X}_j^{bg}\)
前景最远点采样(FG-FPS)：对前景点用 FPS 以比率 \(R^{fg}\) 采样，保持物体结构完整性。前景点数量少，FPS 开销可忽略
背景随机采样(BG-RPS)：背景点数量庞大，用随机采样以比率 \(R^{bg}\) 高效获取稀疏子集

最终传输的是包含采样前景和背景点的稀疏点云。关键洞察：仅 20% 前景 + 适量背景点即可有效支撑检测，过多前景点反而不如更多背景上下文。

2. 补全增强早期融合 (CEEF)¶

核心是 VQ-based pillar 级 LiDAR 补全模块，用于从稀疏 pillar 重建稠密 pillar：

VQ-based LiDAR 补全流程：

(a) 稀疏编码器：Swin Transformer（深度 L=6，嵌入维度 D=128）将稀疏 pillar \(\mathcal{P}^s\) 编码为全局上下文 BEV 表示，投影到量化空间 \(\mathbf{z}^s \in \mathbb{R}^{P \times D_c}\)

(b) 向量量化：维护可学习码本 \(E = \{\mathbf{e}_k\}_{k=0}^{K-1}\)（K=128，\(D_c\)=128），将连续潜向量映射到最近码本条目：

\[\mathbf{z}_i^q = \mathbf{e}_k, \quad k = \arg\min_j \|\mathbf{z}_i^s - \mathbf{e}_j\|_2\]

(c) 稠密解码器：将量化嵌入映射回 pillar 空间，输出重建稠密 pillar \(\hat{\mathcal{P}}^d\) 和占用掩码 \(\hat{\mathcal{O}}^d\)

渐进式融合策略（三阶段）：

初始稀疏早期融合：ego 点云与收到的稀疏邻居点云拼接后 pillar 化为 \(\mathcal{P}_i^{se}\)
并行 pillar 补全：对每个邻居的稀疏 pillar 独立补全，保留占用概率 > \(\tau_o\) 的 pillar，并用原始稀疏 pillar 值替换对应位置以保持保真度
自适应互补融合：计算空间相关性图 \(\mathcal{W}_{j \to i}\)（通过拼接 + 1×1 卷积 + softmax），加权融合补全 pillar，只更新初始融合中的空 pillar：

\[\hat{\mathcal{P}}_i^{de} = \mathcal{M}_i^{se} \odot \mathcal{P}_i^{se} + (1 - \mathcal{M}_i^{se}) \odot \hat{\mathcal{P}}_i^f\]

3. 稠密引导双对齐 (DGDA)¶

训练时将增强后的早期融合 pillar 与稠密全点云 pillar 在两个空间对齐：

语义分布对齐：通道维度 KL 散度

\[\mathcal{L}_{sda} = D_{KL}(\sigma(\hat{\mathcal{P}}_i^{de}) \| \sigma(\mathcal{P}_i^{de}))\]

几何方向对齐：余弦相似度损失

\[\mathcal{L}_{gda} = \mathbb{E}_i\left[1 - \frac{\hat{\mathcal{P}}_i^{de} \cdot \mathcal{P}_i^{de}}{\|\hat{\mathcal{P}}_i^{de}\| \|\mathcal{P}_i^{de}\|}\right]\]

损失函数 / 训练策略¶

两阶段训练： 1. 先预训练 LiDAR 补全模块至收敛（AdamW，lr=8e-4），损失：

\[\mathcal{L}_\Psi = \lambda \cdot \mathcal{L}_{rec} + \mathcal{L}_{vq}\]

其中 \(\mathcal{L}_{rec}\) 包含占用 BCE 和占用区域 MSE，\(\mathcal{L}_{vq}\) 包含码本损失和承诺损失

冻结补全模块，端到端训练完整管线（Adam，lr=2e-3），总损失：

\[\mathcal{L}_\Phi = \mathcal{L}_{det} + \gamma_1 \cdot \mathcal{L}_{sda} + \gamma_2 \cdot \mathcal{L}_{gda}\]

超参数：\(\beta=0.25\)，\(\lambda=10\)，\(\gamma_1=1000\)，\(\gamma_2=10\)

实验关键数据¶

主实验¶

表1：协同 3D 目标检测性能 (AP@0.5/0.7)

方法	V2XSim	OPV2V	V2XSet	DAIR-V2X
No Fusion	73.72/61.65	74.42/54.52	74.18/57.43	64.32/53.27
Early Fusion	94.68/83.61	96.13/90.69	94.59/88.00	76.51/63.83
Where2comm	88.45/80.54	95.10/88.48	90.68/80.48	76.70/61.96
ERMVP	94.35/84.76	95.99/89.14	93.08/81.91	74.73/60.75
CoLC (100%)	95.14/87.89	96.88/92.93	95.97/89.81	76.71/62.17
*CoLC (50%)**	93.47/85.28	96.46/91.95	95.05/87.72	76.03/62.09

CoLC 在传输全点云时 AP@0.7 全面最优，甚至略超早期融合基线（因训练时的补全和对齐正则化减少了过拟合）。CoLC* 仅传输 50% 通信量，仍接近或超过早期融合性能。

推理延迟：CoLC 75.86ms，与 Where2comm (69.7ms)、CoBEVT (84.5ms) 可比，显著快于 ERMVP (100.5ms) 和 V2X-ViT (197.7ms)。

消融实验¶

组件消融（V2XSim，\(R^{fg}\)=0.2）

FAPS	CEEF	DGDA	AP@0.7 变化
✓	✗	✗	性能下降（信息丢失）
✓	✓	✗	显著恢复（补全弥补）
✓	✓	✓	进一步提升（对齐引导）

VQ vs MAE 补全

方法	IoU ↑	MSE ↓	AP@0.5/0.7 ↑
MAE-based	0.633	0.057	88.17/77.55
VQ-based	0.626	0.043	88.89/79.28

VQ-based 虽然占用 IoU 略低，但 MSE 更小、重建保真度更高，导致检测精度更优。

关键发现¶

仅传输前景点效果不如仅传输背景点——背景上下文对早期融合至关重要
CoLC 对异构模型场景天然鲁棒：中间融合在异构场景可能退化到不如无融合，而 CoLC 始终有效
检测性能在补全质量达到阈值（IoU≥0.585, MSE≤0.052）后趋于饱和，提示"够用"即可
低带宽下 PC+ACF 组合优于 SEF+ACF，因补全可有效弥补严重稀疏；高带宽下三阶段组合最优

亮点与洞察¶

问题定义精准：明确指出早期融合的信息优势和通信瓶颈，通过采样+补全优雅解耦两者
前景/背景角色分析透彻：图1的实验直觉清晰——前景不够、背景不能少——直接指导了 FAPS 的设计
VQ-based 补全选择合理：相比 MAE-based 更适合检测下游任务，离散先验提供更具判别性的 pillar 特征
异构鲁棒性是实际部署的关键优势：不同厂商车辆使用不同感知模型时，只有早期融合方案天然兼容

局限性 / 可改进方向¶

FAPS 中的前景选择器需额外预训练，增加部署复杂度；可探索无监督或自监督替代方案
补全模块在训练时冻结，未能端到端联合优化，可能限制性能上限
仅评估 LiDAR 3D 检测，未验证在语义分割、跟踪等下游任务的效果
ICP 对齐引入额外计算成本，在大规模多智能体场景可能成为瓶颈
未考虑对抗性攻击或恶意智能体场景下的安全性

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分度	5
写作质量	4
实用价值	5
总评	4.3