Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism¶

会议: NeurIPS 2025
arXiv: 2510.19618
代码: 有
领域: 自动驾驶 / 协作感知
关键词: 异构协作感知, 生成式通信, 条件扩散模型, BEV特征生成, 可扩展性

一句话总结¶

提出GenComm——一种基于生成式通信机制的异构多智能体协作感知方法，通过空间消息提取和条件扩散模型在ego端生成对齐的协作者特征，无需修改原始网络即可以极低代价接纳新异构智能体。

研究背景与动机¶

多智能体协作感知通过信息共享提升单个智能体的感知能力，但实际场景中不同智能体采用不同传感器和模型，产生域差距（domain gap）问题。现有方法分为两类：

适配型方法（如MPDA、PnPDA、STAMP、HEAL）：通过适配器或反向对齐来转换特征，但存在侵入式重训练问题，会破坏已建立的语义一致性

重建型方法（如CodeFilling）：通过共享码本索引重建特征，但扩展新智能体的计算代价高

这两类方法的核心限制在于：(1) 侵入式地修改编码器或核心模块破坏了智能体间的语义一致性；(2) 接纳新智能体时需要较高的计算与参数开销，可扩展性差。本文提出的核心问题是：如何以最小代价将新智能体融入协作，同时保持现有智能体间的语义一致性？

方法详解¶

整体框架¶

GenComm的核心思路是：每个ego智能体利用接收到的空间消息在本地生成协作者的特征，确保生成特征与ego语义空间对齐，同时保留协作者的空间信息。框架包含三个核心组件：

Deformable Message Extractor：从BEV特征中提取空间消息
Spatial-Aware Feature Generator：基于条件扩散模型生成对齐特征
Channel Enhancer：在通道维度精炼生成特征

整体流程：各智能体用各自编码器提取BEV特征 → 消息提取器压缩为空间消息并传输 → ego端用扩散模型以消息为条件生成协作者特征 → 通道增强后融合 → 解码输出。

关键设计¶

Deformable Message Extractor：采用可变形卷积（deformable convolution），不仅关注单像素还动态参考周围像素，增强前景/背景区分能力。通过偏移预测网络预测采样偏移量，用加权可变形卷积提取空间信息，并使用可学习的resizer适配不同分辨率。提取的消息维度为 \(C' \times H_j \times W_j\)，远小于原始中间特征，降低了通信量。

Spatial-Aware Feature Generator：采用条件扩散模型，对初始特征（从ego特征初始化）进行前向加噪，然后以接收的空间消息作为条件输入，通过条件U-Net逐步去噪生成与ego语义空间对齐的特征。生成过程直接用MSE损失监督：

\[\mathcal{L}_{gen} = \sum_{j \in \mathcal{G}_i} \|\hat{\mathcal{F}}_j - \mathcal{F}_j\|_2^2\]

Channel Enhancer：引入PConv操作增强信息性元素，结合门控机制抑制冗余通道信息，并使用通道注意力强调关键特征。将特征沿通道维度分为可修改部分和静态部分，通过深度可分离卷积和注意力机制进行精炼。

损失函数 / 训练策略¶

采用两阶段训练策略：

阶段一（同构训练）：端到端训练，损失函数 \(\mathcal{L}_{stage1} = \alpha_1 \mathcal{L}_{cls} + \alpha_2 \mathcal{L}_{reg} + \alpha_3 \mathcal{L}_{gen}\)，其中分类用focal loss，回归用smooth L1 loss，生成用MSE loss
阶段二（异构扩展）：仅微调轻量级消息提取器，解决异构智能体间空间信息的数值不一致问题。损失函数 \(\mathcal{L}_{stage2} = \alpha_1 \mathcal{L}_{cls} + \alpha_2 \mathcal{L}_{reg}\)

接纳新智能体时，只需为其初始化并微调一个轻量提取器，不修改ego核心模块。

实验关键数据¶

主实验¶

融合网络	方法	OPV2V-H LP64-LS32 AP50/AP70	OPV2V-H LP64-CE AP50/AP70	DAIR-V2X LP64-LS40 AP30/AP50	通信量(log2)
AttFuse	MPDA	0.767/0.570	0.737/0.574	0.425/0.364	22.0
AttFuse	BackAlign	0.787/0.584	0.685/0.524	0.456/0.373	22.0
AttFuse	CodeFilling	0.722/0.536	0.666/0.510	0.385/0.319	15.0
AttFuse	STAMP	0.759/0.569	0.726/0.561	0.447/0.391	22.0
AttFuse	GenComm	0.804/0.633	0.753/0.601	0.459/0.379	16.0
V2X-ViT	MPDA	0.850/0.660	0.687/0.502	0.472/0.379	22.0
V2X-ViT	BackAlign	0.855/0.693	0.691/0.523	0.490/0.392	22.0
V2X-ViT	CodeFilling	0.860/0.689	0.560/0.416	0.445/0.356	15.0
V2X-ViT	STAMP	0.844/0.628	0.751/0.544	0.542/0.494	22.0
V2X-ViT	GenComm	0.867/0.699	0.763/0.576	0.565/0.467	16.0

消融实验 — 可扩展性成本¶

方法	新增智能体的训练参数量	新增智能体的计算量(FLOPs)
MPDA	基准	基准
BackAlign	高	高
STAMP	高	高
CodeFilling	中等	中等
GenComm	降低81%	降低81%

关键发现¶

GenComm在仿真（OPV2V-H）和真实（DAIR-V2X、V2X-Real）数据集上均超越现有SOTA方法
通信量从22.0降至16.0（log2），通信效率显著提升
接纳新智能体的计算和参数开销比适配型方法降低81%，比重建型方法降低62%
消融实验验证了三个组件（消息提取器、特征生成器、通道增强器）各自的贡献

亮点与洞察¶

范式创新：首次提出基于生成（而非适配或重建）的异构协作通信机制，避免侵入式修改原始网络
轻量可扩展：新智能体加入只需微调一个小提取器，极大降低了系统对新成员的准入成本
通信效率：传输压缩后的空间消息而非完整中间特征，降低带宽需求
扩散模型的巧妙应用：用条件扩散模型在ego端"想象"出协作者的特征，是扩散模型在协作感知中的新颖应用

局限与展望¶

条件扩散模型的推理速度可能成为实时系统的瓶颈，需要探索加速策略
当前仅在3D目标检测任务上验证，可扩展至语义分割等其他下游任务
两阶段训练策略仍需为每对新的异构组合做微调，探索zero-shot异构协作是值得的方向
空间消息的压缩率与信息保留的权衡可进一步研究

评分¶

新颖性：⭐⭐⭐⭐⭐（首创生成式协作通信范式）
技术深度：⭐⭐⭐⭐（扩散模型+可变形卷积设计合理）
实验充分度：⭐⭐⭐⭐⭐（三个数据集、多种设定、全面消融）
实用性：⭐⭐⭐⭐（可扩展性优异，但扩散推理速度待验证）