跳转至

CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion

会议: CVPR 2026 arXiv: 2603.00682 代码: 无 领域: 自动驾驶 关键词: 协同感知, 通信效率, 点云补全, 早期融合, 向量量化

一句话总结

CoLC 提出一种通信高效的早期协同感知框架,通过前景感知点采样(FAPS)减少传输量,结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示,并用稠密引导双对齐(DGDA)保证语义和几何一致性,在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。

研究背景与动机

协同感知允许多智能体共享互补信息,克服单智能体的感知盲区和遮挡问题。现有融合策略分为三类:

  • 早期融合(Early Fusion):直接传输原始点云,信息保真度最高且天然鲁棒于异构模型,但通信开销极大
  • 中间融合(Intermediate Fusion):传输 BEV 特征,通信开销适中但依赖模型一致性
  • 晚期融合(Late Fusion):传输检测结果,通信最少但信息损失最大

作者发现了一个关键现象:在早期融合中,仅传输前景点会导致性能大幅下降,甚至不如仅传输背景点。这是因为前景点负责补全物体形状,而背景点提供用于空间对齐的上下文锚点。两者缺一不可,这启发了 CoLC 的设计——同时采样前景和背景点,然后在 ego 端通过补全恢复缺失信息。

方法详解

整体框架

CoLC 包含三个互补模块:

  1. FAPS (Foreground-Aware Point Sampling):邻居端执行空间感知的点云采样
  2. CEEF (Completion-Enhanced Early Fusion):ego 端从稀疏输入重建稠密 pillar 并自适应融合
  3. DGDA (Dense-Guided Dual Alignment):训练时的语义-几何双对齐监督

关键设计

1. 前景感知点采样 (FAPS)

对邻居智能体的原始点云 \(\mathcal{X}_j \in \mathbb{R}^{M \times 4}\)

  • 前景/背景分离:预训练轻量 MLP 点选择器估计显著性图 \(\mathcal{S}_j \in [0,1]^M\),以阈值 \(\tau_s = 0.5\) 分为前景集 \(\mathcal{X}_j^{fg}\) 和背景集 \(\mathcal{X}_j^{bg}\)
  • 前景最远点采样(FG-FPS):对前景点用 FPS 以比率 \(R^{fg}\) 采样,保持物体结构完整性。前景点数量少,FPS 开销可忽略
  • 背景随机采样(BG-RPS):背景点数量庞大,用随机采样以比率 \(R^{bg}\) 高效获取稀疏子集

最终传输的是包含采样前景和背景点的稀疏点云。关键洞察:仅 20% 前景 + 适量背景点即可有效支撑检测,过多前景点反而不如更多背景上下文。

2. 补全增强早期融合 (CEEF)

核心是 VQ-based pillar 级 LiDAR 补全模块,用于从稀疏 pillar 重建稠密 pillar:

VQ-based LiDAR 补全流程

(a) 稀疏编码器:Swin Transformer(深度 L=6,嵌入维度 D=128)将稀疏 pillar \(\mathcal{P}^s\) 编码为全局上下文 BEV 表示,投影到量化空间 \(\mathbf{z}^s \in \mathbb{R}^{P \times D_c}\)

(b) 向量量化:维护可学习码本 \(E = \{\mathbf{e}_k\}_{k=0}^{K-1}\)(K=128,\(D_c\)=128),将连续潜向量映射到最近码本条目:

\[\mathbf{z}_i^q = \mathbf{e}_k, \quad k = \arg\min_j \|\mathbf{z}_i^s - \mathbf{e}_j\|_2\]

(c) 稠密解码器:将量化嵌入映射回 pillar 空间,输出重建稠密 pillar \(\hat{\mathcal{P}}^d\) 和占用掩码 \(\hat{\mathcal{O}}^d\)

渐进式融合策略(三阶段):

  1. 初始稀疏早期融合:ego 点云与收到的稀疏邻居点云拼接后 pillar 化为 \(\mathcal{P}_i^{se}\)
  2. 并行 pillar 补全:对每个邻居的稀疏 pillar 独立补全,保留占用概率 > \(\tau_o\) 的 pillar,并用原始稀疏 pillar 值替换对应位置以保持保真度
  3. 自适应互补融合:计算空间相关性图 \(\mathcal{W}_{j \to i}\)(通过拼接 + 1×1 卷积 + softmax),加权融合补全 pillar,只更新初始融合中的空 pillar:
\[\hat{\mathcal{P}}_i^{de} = \mathcal{M}_i^{se} \odot \mathcal{P}_i^{se} + (1 - \mathcal{M}_i^{se}) \odot \hat{\mathcal{P}}_i^f\]

3. 稠密引导双对齐 (DGDA)

训练时将增强后的早期融合 pillar 与稠密全点云 pillar 在两个空间对齐:

  • 语义分布对齐:通道维度 KL 散度
\[\mathcal{L}_{sda} = D_{KL}(\sigma(\hat{\mathcal{P}}_i^{de}) \| \sigma(\mathcal{P}_i^{de}))\]
  • 几何方向对齐:余弦相似度损失
\[\mathcal{L}_{gda} = \mathbb{E}_i\left[1 - \frac{\hat{\mathcal{P}}_i^{de} \cdot \mathcal{P}_i^{de}}{\|\hat{\mathcal{P}}_i^{de}\| \|\mathcal{P}_i^{de}\|}\right]\]

损失函数 / 训练策略

两阶段训练: 1. 先预训练 LiDAR 补全模块至收敛(AdamW,lr=8e-4),损失:

\[\mathcal{L}_\Psi = \lambda \cdot \mathcal{L}_{rec} + \mathcal{L}_{vq}\]

其中 \(\mathcal{L}_{rec}\) 包含占用 BCE 和占用区域 MSE,\(\mathcal{L}_{vq}\) 包含码本损失和承诺损失

  1. 冻结补全模块,端到端训练完整管线(Adam,lr=2e-3),总损失:
\[\mathcal{L}_\Phi = \mathcal{L}_{det} + \gamma_1 \cdot \mathcal{L}_{sda} + \gamma_2 \cdot \mathcal{L}_{gda}\]

超参数:\(\beta=0.25\)\(\lambda=10\)\(\gamma_1=1000\)\(\gamma_2=10\)

实验关键数据

主实验

表1:协同 3D 目标检测性能 (AP@0.5/0.7)

方法 V2XSim OPV2V V2XSet DAIR-V2X
No Fusion 73.72/61.65 74.42/54.52 74.18/57.43 64.32/53.27
Early Fusion 94.68/83.61 96.13/90.69 94.59/88.00 76.51/63.83
Where2comm 88.45/80.54 95.10/88.48 90.68/80.48 76.70/61.96
ERMVP 94.35/84.76 95.99/89.14 93.08/81.91 74.73/60.75
CoLC (100%) 95.14/87.89 96.88/92.93 95.97/89.81 76.71/62.17
CoLC* (50%) 93.47/85.28 96.46/91.95 95.05/87.72 76.03/62.09

CoLC 在传输全点云时 AP@0.7 全面最优,甚至略超早期融合基线(因训练时的补全和对齐正则化减少了过拟合)。CoLC* 仅传输 50% 通信量,仍接近或超过早期融合性能。

推理延迟:CoLC 75.86ms,与 Where2comm (69.7ms)、CoBEVT (84.5ms) 可比,显著快于 ERMVP (100.5ms) 和 V2X-ViT (197.7ms)。

消融实验

组件消融(V2XSim,\(R^{fg}\)=0.2)

FAPS CEEF DGDA AP@0.7 变化
性能下降(信息丢失)
显著恢复(补全弥补)
进一步提升(对齐引导)

VQ vs MAE 补全

方法 IoU ↑ MSE ↓ AP@0.5/0.7 ↑
MAE-based 0.633 0.057 88.17/77.55
VQ-based 0.626 0.043 88.89/79.28

VQ-based 虽然占用 IoU 略低,但 MSE 更小、重建保真度更高,导致检测精度更优。

关键发现

  1. 仅传输前景点效果不如仅传输背景点——背景上下文对早期融合至关重要
  2. CoLC 对异构模型场景天然鲁棒:中间融合在异构场景可能退化到不如无融合,而 CoLC 始终有效
  3. 检测性能在补全质量达到阈值(IoU≥0.585, MSE≤0.052)后趋于饱和,提示"够用"即可
  4. 低带宽下 PC+ACF 组合优于 SEF+ACF,因补全可有效弥补严重稀疏;高带宽下三阶段组合最优

亮点与洞察

  1. 问题定义精准:明确指出早期融合的信息优势和通信瓶颈,通过采样+补全优雅解耦两者
  2. 前景/背景角色分析透彻:图1的实验直觉清晰——前景不够、背景不能少——直接指导了 FAPS 的设计
  3. VQ-based 补全选择合理:相比 MAE-based 更适合检测下游任务,离散先验提供更具判别性的 pillar 特征
  4. 异构鲁棒性是实际部署的关键优势:不同厂商车辆使用不同感知模型时,只有早期融合方案天然兼容

局限性 / 可改进方向

  1. FAPS 中的前景选择器需额外预训练,增加部署复杂度;可探索无监督或自监督替代方案
  2. 补全模块在训练时冻结,未能端到端联合优化,可能限制性能上限
  3. 仅评估 LiDAR 3D 检测,未验证在语义分割、跟踪等下游任务的效果
  4. ICP 对齐引入额外计算成本,在大规模多智能体场景可能成为瓶颈
  5. 未考虑对抗性攻击或恶意智能体场景下的安全性

相关工作与启发

  • Where2comm/CoBEVT:中间融合的代表方法,关注"传什么特征"和"怎么压缩",但受限于模型异构性
  • STAR:在中间融合中用 MAE 重建被掩码的特征,但不适用于早期融合
  • PointPillars:作为 CoLC 的检测骨架,pillar 表示天然适配 VQ 补全
  • 思路可延伸到视觉协同感知(传输图像 patch 并补全)和多模态融合

评分

维度 分数 (1-5)
创新性 4
技术深度 4
实验充分度 5
写作质量 4
实用价值 5
总评 4.3