NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception¶

会议: NeurIPS 2025
arXiv: 2510.27647
代码: 无
领域: 多模态VLM / 协同感知
关键词: 协同感知, 异质性, 公共表示, 域适应, 自动驾驶

一句话总结¶

提出 NegoCollab 框架，通过引入协商者（Negotiator）在训练期间从多模态 agent 的局部表示中协商生成公共表示，有效消除异质协作 agent 之间的域差异，实现低训练成本的协同网联感知。

领域现状：多 agent 协同感知通过特征共享扩大感知范围、克服盲区遮挡，是 V2X 通信的重要方向。

现有痛点：agent 可能配备不同/固定的感知模型，导致中间特征间的域差异。一对一适应方法（MPDA/PnPDA）需训练大量适配器，训练成本随 agent 类型数量的平方增长。

核心矛盾：指定某个 agent 的表示为公共表示会引入偏倚——与该 agent 差异大的模态对齐困难。

切入角度：公共表示不应被指定为单一 agent 的表示，而应从各模态 agent 的局部表示中协商生成。

核心 idea：多维对齐（分布 + 结构 + 实用）+ 环形一致性，从多模态特征中协商出中性公共表示。

参与者包括 M 个模态的 agent 和 N 个 agent 总数。Pipeline 为：Local Representation → Sender → Common Representation (Negotiator) → Receiver → Local Representation。

Sender（特征→公共表示）
- 功能：将本地特征映射到公共表示空间
- 核心思路：双模块设计——Recombiner（ConvNeXt 结构，增强本地特征并调整维度）+ Aligner（融合轴注意力，捕捉全局和局部依赖）
- 设计动机：需要兼顾维度对齐和语义对齐
Negotiator（协商公共表示）
- 功能：从多模态 Sender 输出中协商生成统一的公共表示
- 核心思路：特征金字塔网络（FPN）融合策略 \(P = \bigoplus_{l,m} (u_l(P^{(m)}_l) \odot \text{norm}(P^{(m)}_l))\)
- 设计动机：显式学习生成公共表示 P（而非指定某个模态），消除偏倚
Receiver（公共→本地）
- 功能：将公共表示转回本地模态空间
- 核心思路：Converter（融合轴注意力 + 局部引导，Query 来自 Recombiner 输出）+ Recombiner
- 设计动机：公共表示包含多模态融合信息，需要针对性转换
多维对齐损失（Section 3.2.3）
- 分布对齐：匹配均值和标准差 \(\mathcal{L}_{uni-dis}^{(m)} = \|P^{(m)} - P\|_2^2 + \alpha\|Std(P^{(m)}) - Std(P)\|_2^2\)
- 结构对齐：9 个关键点的特征相似度矩阵保持一致
- 实用对齐：前景信息组织一致 \(\mathcal{L}_{uni-pragma}^{(m)} = L_{focal}(\mathcal{N}(P^{(m)}), Y)\)
- 环形一致性：\(\mathcal{L}_{cycle}^{(m)} = \|F^{(m)} - L^{(m)}\|_2^2\)，确保前向后向变换信息损失最小

三阶段训练：第一阶段用多维对齐 + 环形一致性训练 Sender/Receiver；第二阶段联合训练 Negotiator；第三阶段端到端微调。

方法	Agent 类型	AP@0.5	AP@0.7	说明
No Fusion	m1,m2	0.482	0.350	单 agent 基准
MPDA(一对一)	m1,m2	0.815	0.692	单独适配
PnPDA	m2,m4	0.532	0.331	跨模态差
NegoCollab	m1,m2	0.872	0.911	公共表示
NegoCollab	m1,m3	0.949	0.854	新 agent 加入

对齐方式	AP@0.5	改进	说明
仅分布对齐	0.812	基准	传统方法
+ 结构对齐	0.841	+3.6%	空间关系
+ 实用对齐	0.858	+5.7%	前景一致
完整三维	0.872	+7.4%	全方位约束