SiMO: Single-Modality-Operable Multimodal Collaborative Perception¶

属性	值
会议	ICLR 2026
arXiv	2603.08240
代码	dempsey-wen/SiMO
领域	协同感知 / 多模态融合 / 自动驾驶
关键词	collaborative perception, multimodal fusion, modality failure, BEV, 3D detection

一句话总结¶

提出 SiMO 框架，通过 LAMMA 融合模块和 PAFR 训练策略，首次在多智能体协同感知中实现任意模态缺失（特别是 LiDAR 失效仅有相机可用时）下仍可正常工作的多模态感知系统，类似并联电路——只要有一条通路就能工作。

研究背景与动机¶

多智能体协同感知（MACP）通过多车共享特征可扩展感知范围、克服遮挡，但现有多模态方法像串联电路，任一传感器（尤其是 LiDAR）缺失就全系统失效。
模态缺失的根本原因：现有融合方法（concat / CNN / Transformer）使融合前后特征空间不一致——当某模态缺失时，未融合的单模态特征无法匹配为融合特征设计的下游任务头，导致系统崩溃。
协同场景更复杂：不同于单智能体只需本地对齐，MACP 要求不同智能体（如 ego 用 LiDAR + 邻车仅有 camera）的传输特征严格处于统一语义空间，以实现跨智能体有效交互。现有单智能体鲁棒方法无法保证这种跨智能体语义一致性。
模态竞争（modality competition）被忽视：多模态联合训练时，信息密度高的模态（如 LiDAR 对 3D 任务更直接）更快收敛，主导优化过程，抑制弱模态分支（camera）的充分训练，导致弱模态分支无法独立工作。
现有方法局限：BM2CP、BEVFusion、CoBEVFusion 等仅考虑多模态融合提升精度，忽略 LiDAR 失效时 camera 分支的独立可用性；MetaBEV/UniBEV 等仅在单智能体探索过模态鲁棒，无法推广到多智能体。
本文是首个在协同感知中系统性处理动态、异构模态缺失的工作。

方法详解¶

整体架构¶

SiMO 的核心思想：先对齐、再融合，使融合前后特征处于同一语义空间，从而保证单模态特征和多模态融合特征对下游任务头的兼容性。

整体流程： 1. 特征提取：PointPillar 提取 LiDAR BEV 特征，LSS（Lift-Splat-Shot）提取 Camera BEV 特征 2. 特征对齐：两个独立的 3 层 ConvNeXt 对齐器 \(g_L\), \(g_C\)，将异构特征对齐到统一语义空间 3. LAMMA 多模态融合：长度自适应注意力融合，产生多模态 BEV 特征 4. 多智能体融合：AttFusion 或 Pyramid Fusion 融合多车特征 5. 任务头：cls/reg/dir 头输出 3D 检测结果

核心创新——可以自适应处理不同数量模态输入的即插即用融合模块：

共享权重：Q/K/V 的线性投影 \(W_Q, W_K, W_V\) 对所有模态共享，确保一致的语义处理
并行拼接注意力：将两个模态的 Query 拼接 \(Q = [Z_A; Z_B]\)，Key/Value 保持分离，每个模态做一次多头注意力（同时包含自注意力和交叉注意力）
加法融合保持空间一致：注意力结果 Split + Sum 后得到各模态增强表示 \(Z_{fused\_m}\)，最终两模态加法融合得到 \(Z_{mm}\)，避免特征空间偏移
优雅降级：当某模态缺失时（如 \(Z_A = 0\)），Query 中对应部分为零，LAMMA 自然退化为自注意力模块（Self-Attention），无需额外的缺失检测逻辑，结构上保持语义一致性

关键设计 2: PAFR 训练策略（Pretrain-Align-Fuse-RD）¶

四阶段训练，彻底规避模态竞争：

阶段	操作	冻结参数
Step 1: Pretrain	加载各模态预训练好的特征提取器	提取器全冻结
Step 2: Align	先训练 LiDAR 对齐器至收敛，冻结；再训练 Camera 对齐器至收敛，冻结	提取器 + 已训练的对齐器
Step 3: Fuse	用多模态输入训练 LAMMA 融合模块	提取器 + 对齐器 + 任务头
Step 4: RD	以 50% 概率随机丢弃一个模态特征，微调 LAMMA 适应模态缺失	其余模块

关键洞察：模态竞争源于不同模态"任务相关信息密度"的本质差异（LiDAR 直接获取 3D 信息 vs Camera 需从 2D 推断），在端到端联合训练中不可避免。PAFR 策略通过隔离训练各分支来绕过竞争，而非试图平衡。

损失函数¶

\[L(\hat{Y}, Y) = L_{Focal}(\hat{Y}_{cls}, Y_{cls}) + L_{SmoothL1}(\hat{Y}_{reg}, Y_{reg})\]

实验关键数据¶

主实验：OPV2V-H 3D 检测（AP%）¶

方法	模态	AP@30	AP@50	AP@70
BM2CP	L+C	91.69	91.45	86.87
BM2CP	L only	91.55	91.31	86.80
BM2CP	C only	0	0	0
BEVFusion+RD	L+C	95.18	94.21	81.09
BEVFusion+RD	C only	0	0	0
UniBEV+RD	L+C	93.33	91.71	70.75
UniBEV+RD	C only	1.93	0	0
HEAL (Pyramid)	L	98.22	98.00	96.16
HEAL (Pyramid)	C	68.45	60.48	39.07
SiMO-PF+RD	L+C	98.30	97.94	94.64
SiMO-PF+RD	L only	97.32	97.07	94.06
SiMO-PF+RD	C only	80.81	69.63	44.82

核心发现：BM2CP/BEVFusion/UniBEV 在 LiDAR 缺失时完全失效（Camera-only AP≈0）；SiMO-PF 在仅 Camera 时 AP@30=80.81%，比 HEAL 的 Camera-only 高 12.36 个点。

异构模态失效实验¶

模式	HEAL AP@50	SiMO-PF AP@50
L only	0.98	0.97
C only	0.60	0.70
C-ego (异构)	0.82	0.85
L-ego (异构)	0.96	0.97

SiMO 无需额外微调即可适应异构模态失效场景。

消融实验¶

学习策略	RD	LAMMA	AP@70 (L+C / L / C)	可适应模态缺失?
✗	✗	✗	0.94 / 0.01 / 0	✗
✗	✔	✗	0.11 / 0 / 0	✗
✔	✗	✔	0.95 / 0.26 / 0	✗
✗	✔	✔	0.81 / 0.72 / 0	✗
✔	✔	✔	0.95 / 0.94 / 0.45	✔

三者缺一不可：无 PAFR 策略，RD 反而有害；无 RD，无法适应模态缺失；无 LAMMA，BEVFusion+RD 仍然 Camera 失效。

Procrustes 分析验证特征对齐¶

对比	BEVFusion	LAMMA 前	LAMMA 后
cam vs lidar	0.8645	0.6747	0.0472
cam vs fused	0.7297	0.3886	0.0215
lidar vs fused	0.5747	0.2773	0.0064

LAMMA 后多模态特征差异性从 0.67 降到 0.05，验证了特征空间高度统一。

亮点与洞察¶

并联电路类比精准：将多模态系统设计为并联而非串联，只要一条通路有效就可工作，概念简洁且实用。
对模态竞争的新理解：将模态竞争归因于"任务相关信息密度"差异，并用隔离训练彻底规避而非试图平衡，比现有梯度调控方法更具确定性。
LAMMA 的优雅降级：模态缺失时自然退化为自注意力，无需额外检测逻辑，结构优美。
即插即用：LAMMA 可适配不同协同感知框架（AttFusion / Pyramid Fusion），不需修改原方法。
Camera 分支显著增强：SiMO-PF Camera-only 比 HEAL Camera-only 高 12.36/9.15/5.75（AP@30/50/70），说明原框架未充分利用 Camera 特征。

局限性¶

单模态性能受限于特征提取器能力：在单视角 Camera 场景（如 DAIR-V2X）中，缺乏多视角视差导致深度估计受限，SiMO 无法突破物理信息瓶颈。
多阶段训练流程：PAFR 四阶段训练不可避免地延长了总训练时间。
加法融合缺乏平滑：相比 CNN 融合的隐式平滑，加法融合对高强度传感器噪声更敏感。
实验数据集有限：主实验基于仿真数据 OPV2V-H，真实世界数据集（DAIR-V2X/V2XReal）只在附录中简要验证。

评分¶

⭐⭐⭐⭐ (4/5)

理由：问题定义明确且有实际价值（模态失效在真实驾驶中不可避免），LAMMA 设计优雅（共享权重+加法融合+自然降级），PAFR 策略对模态竞争的理解有深度。消融实验充分证明了三个组件缺一不可。扣分点在于主实验仍基于仿真数据集，且多阶段训练增加了工程复杂度。