Linking Modality Isolation in Heterogeneous Collaborative Perception¶
会议: CVPR2026 arXiv: 2603.00609 代码: cxliu0314/CodeAlign 领域: autonomous_driving 关键词: 协同感知, 异构对齐, 模态隔离, 码本, 跨模态翻译
一句话总结¶
提出 CodeAlign 框架,通过码本构建离散代码空间和跨模态 Feature-Code-Feature (FCF) 翻译,首次解决异构协同感知中不同模态从未在训练数据中共现的"模态隔离"问题,仅需 HEAL 8% 训练参数、通信量降低 1024 倍,同时达到 SOTA 感知性能。
背景与动机¶
- 协同感知的价值:多智能体(如网联自动驾驶车辆)通过共享感知信息可构建更全面的环境理解,弥补单车盲区与遮挡
- 异构性问题:现实中不同厂商车辆配备不同传感器类型(LiDAR/Camera)、不同参数(64 线/32 线)和不同感知模型,特征级融合面临巨大的域差
- 模态隔离的普遍性:不同机构在不同地点和时间采集数据,导致许多模态对从未在同一场景中共现——例如 A 机构只有 LiDAR 数据、B 机构只有 Camera 数据,二者没有任何空间交叠的观测
- 现有方法的依赖与局限:HEAL 需额外重训编码器(代价高);STAMP/GT-Space 依赖共现数据的空间对应监督或共享视野;HMViT 和 Pyramid Fusion 需要联合训练,在模态隔离下性能严重退化(AP70 下降 15.21%)
- 效率瓶颈:中间融合方法传输密集特征图,通信开销巨大(单次 32MB),制约实际部署
- 隐私约束:不同机构的数据受隐私法规限制,无法直接共享原始数据,进一步加剧了跨模态对齐的困难
方法详解¶
整体框架:CodeAlign¶
CodeAlign 包含两个训练阶段和一个推理流程:
阶段一:代码空间构建 (Code Space Construction)
- 为每种模态在编码器和后端之间插入一个轻量级适配器(4 层 ResNet block, 3×3 卷积)和一个可学习码本(大小 D=16)
- 编码器和后端冻结,仅训练适配器和码本
- 对 BEV 特征图的每个空间位置,通过最近邻量化映射到码本索引:\(I_{[h,w]} = \arg\min_\ell \| (\mathcal{P}(F))_{[h,w]} - C[\ell] \|_2^2\)
- 通信时仅传输码本索引图(\(H \times W \times \log_2(D)\)),相比原始特征(\(H \times W \times C\))压缩约 1024 倍
组代码空间构建 (Group Code Space Construction):对非隔离模态共享同一码本,使来自不同模态但表示同一对象的特征映射到相同码本嵌入,天然实现对齐,同时减少后续需要训练的跨模态翻译器数量
阶段二:FCF 翻译 (Feature-Code-Feature Translation)
- Feature→Code:跨模态翻译器 \(T_{m_i \to m_j}\) 将源模态的密集特征映射为目标模态码本中的索引图
- Code→Feature:目标模态的重建器 \(R_{m_j}\) 将索引图解码为密集特征,该特征天然处于目标模态特征空间
- 选择 dense-to-code 方案(而非 dense-to-dense 或 code-to-code),兼顾重建精度与通信效率
一对多代码翻译器 (One-to-Many Code Translator):
- 共享主干(堆叠 ConvNeXt blocks)+ 模态特定多头输出
- 训练参数随模态数线性增长(\((0.5M) \cdot n\)),避免 one-to-one 的二次增长
- 数据平衡策略:根据不同目标的损失变化动态调整训练数据比例
损失函数¶
\[L = L_{\text{det}}(\hat{\mathcal{O}}_i, \mathcal{O}_i^0) + L_{\text{pyramid}} + \lambda \sum_{k,j \in \mathcal{G}_s, m_k \neq m_j} L_{\text{sim}}(F_{k \to i}, F_{j \to i})\]
- \(L_{\text{det}}\):检测损失
- \(L_{\text{pyramid}}\):金字塔融合损失(来自 HEAL)
- \(L_{\text{sim}}\):Smooth L1 特征相似性损失(\(\lambda=0.1\)),鼓励跨模态特征一致性
本地数据训练协议¶
仅使用源模态本地数据:源模态编码→翻译器→目标后端检测损失,无需跨机构数据传输,完全符合数据隐私要求。
实验关键数据¶
OPV2V 数据集(仿真,多车 V2V)¶
| 方法 | m1+m7+m2 AP30 | m1+m7+m2 AP50 | m1+m7+m2 AP70 | 训练参数(M) | 通信量 |
|---|---|---|---|---|---|
| No Collaboration | 81.18 | 79.44 | 68.26 | 0 | 0 |
| Late Fusion | 88.24 | 85.02 | 68.45 | 0 | 0.5KB |
| Pyramid Fusion | 83.95 | 82.93 | 68.91 | 21.4 | 32MB |
| HEAL | 87.80 | 86.98 | 79.89 | 16.0 | 32MB |
| CodeAlign | 89.77 | 88.59 | 77.73 | 1.3 | 0.03MB |
- CodeAlign 在三模态场景中 AP30/AP50 分别超越 HEAL 1.97/1.61 个百分点
- 训练参数仅为 HEAL 的 8%(1.3M vs 16.0M)
- 通信量降低 1024 倍(0.03MB vs 32MB)
DAIR-V2X 数据集(真实世界)¶
| 方法 | m1+m2 AP30 | m1+m2 AP50 | m1+m2 AP70 |
|---|---|---|---|
| HEAL | 73.70 | 67.21 | 44.76 |
| CodeAlign | 82.03 | 77.37 | 57.84 |
- CodeAlign 在真实数据集上 AP70 超越 HEAL 13.08 个百分点,展示出更强的泛化能力
消融实验¶
- 模态隔离影响:Pyramid Fusion 在模态隔离下 AP70 从 80.88% 骤降至 65.67%(-15.21%)
- 组代码空间 vs FCF 翻译:对非隔离模态,组代码空间构建比 FCF 翻译高 6.71% AP70
- 翻译器结构:Multi-head 翻译器相比 One-to-one 仅损失 0.10% AP50,但参数从 \(O(n^2)\) 降为 \(O(n)\)
- 码本+冻结编码器+适配器+相似性损失:逐步引入后 AP70 从 77.87% 恢复到 79.63%
- 位姿误差鲁棒性:CodeAlign 在位姿扰动下始终优于 HEAL,Late Fusion 快速退化至低于无协作基线
亮点¶
- 首个无共现对齐框架:通过表示一致性替代空间对应,从根本上解决模态隔离问题
- 极致效率:8% 训练参数 + 1024× 通信压缩,对大规模部署友好
- 隐私保护:本地数据训练协议避免跨机构数据传输
- 强可扩展性:一对多翻译器使新模态接入成本从 \(O(n^2)\) 降至 \(O(n)\)
- 即插即用设计:冻结原始编码器和后端,仅训练轻量插入模块
局限性 / 可改进方向¶
- 码本量化带来的信息损失导致部分场景 AP70 略低于 HEAL(如 m1+m2 场景 85.56 vs 86.18)
- 码本大小固定为 16,较小的码本可能无法充分表达复杂场景
- 评估受限于现有数据集的模态多样性,未在大规模多模态(>7 种)场景下验证
- 未探讨动态场景中码本的在线更新与自适应机制
- BEV 空间范围设定为 ±102.4m,对超远距离场景的适用性未验证
与相关工作的对比¶
| 方法 | 是否支持模态隔离 | 训练方式 | 通信效率 | 核心机制 |
|---|---|---|---|---|
| HMViT | ✗ | 联合端到端 | 低(32MB) | 跨模态注意力 |
| CodeFilling | ✗ | 共享码本端到端 | 高(0.03MB) | 单一共享码本 |
| STAMP | ✗ | 对比学习 | 低(32MB) | 协议网络参考 |
| GT-Space | ✗ | GT 特征对齐 | 低 | 真值锚点 |
| HEAL | △(需重训编码器) | 反向对齐 | 低(32MB) | 编码器重训 |
| CodeAlign | ✓ | 本地数据训练 | 高(0.03MB) | FCF 翻译+码本 |
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次定义并系统解决模态隔离问题,FCF 翻译思路新颖
- 实验充分度: ⭐⭐⭐⭐ — 仿真+真实数据集,多场景消融全面;但模态种类受限
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,方法阐述系统;部分符号重复定义
- 价值: ⭐⭐⭐⭐⭐ — 解决实际部署痛点(隐私、效率、可扩展性),工程意义显著