COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception¶
会议: ICLR 2026
arXiv: 2602.13287
代码: https://cisl.ucr.edu/CooperTrim
领域: 自动驾驶 / 协同感知
关键词: 协同感知, 带宽优化, 时序不确定性, 特征选择, 共形预测
一句话总结¶
提出 CooperTrim 自适应特征选择框架,通过共形时序不确定性度量评估特征相关性,并用数据驱动机制动态决定共享数量,在协同语义分割中实现 80.28% 带宽降低且性能可比,首次将选择性共享应用于协同分割任务。
研究背景与动机¶
- 领域现状:协同感知使自动驾驶车辆共享编码表示以增强态势感知。中间融合方案是主流,但传输的特征量仍然压迫无线带宽(通常 ~40 Mbps)。现有带宽优化方法包括压缩(信息有损)、选择(固定阈值)和混合策略。
- 现有痛点:(a) Where2Comm 用固定阈值的置信度图选择特征,忽略时序上下文,带宽仍高(39.6 Mbps);(b) SwissCheese 用固定阈值做通道/空间选择,缺乏环境自适应;(c) 所有方法逐帧独立决策,重复传输静态信息。
- 核心矛盾:有限带宽与丰富传感器信息的根本矛盾——现有方法只是"每帧少传",未利用时序连续性来"按需传"。
- 本文要解决什么? (a) 利用时序上下文识别真正需要更新的动态特征;(b) 根据环境复杂度自适应调整共享量。
- 切入角度:接收方(ego vehicle)可以用自身的时序记忆判断哪些特征是"新信息"(时序不确定性高),只请求那些有变化的特征。简单场景少传,复杂场景多传。
- 核心idea一句话:用时序不确定性而非静态置信度来衡量特征相关性,实现环境自适应的按需共享。
方法详解¶
整体框架¶
Ego 车辆从当前帧特征 \(F_t\) 和融合过的上一帧特征 \(F_{t-1}^{\text{fused}}\) 计算共形时序不确定性,通过可学习分位阈值 \(q\) 和注意力掩码阈值 \(\tau\) 确定要请求的特征子集,广播请求向量,接收协作车辆的选定特征后融合。
关键设计¶
- 共形时序不确定性:
- 做什么:量化每个特征通道相对于时序上下文的变化程度
- 核心思路:计算当前帧与上一融合帧的 L1 距离 \(S_t = |F_t - F_{t-1}^{\text{fused}}|\),用可学习分位阈值 \(q\) 做门控(共形预测启发),只保留变化超过 \(q\) 的特征作为"不确定"
-
设计动机:静态场景中大部分特征帧间不变——无需重复传输
-
自适应数量确定:
- 做什么:根据环境复杂度动态调整共享特征数量
- 核心思路:对不确定特征施加交叉注意力加权,通过可学习掩码阈值 \(\tau\) 截断——复杂场景(多交叉路口)产生高相关性分数→更多特征超过阈值→更多传输
-
设计动机:实现"简单场景少传,复杂场景多传"的自适应行为
-
\(\epsilon\)-Greedy 训练策略:
- 做什么:平衡全特征训练和选择特征训练
- 核心思路:以 \(\epsilon\) 概率使用全部特征(exploration),\((1-\epsilon)\) 概率使用选择的特征(exploitation)。理论证明这减少了梯度估计器的偏差和方差
- 设计动机:仅用部分特征训练可能导致梯度噪声大、收敛不稳定
损失函数 / 训练策略¶
拉格朗日约束优化:\(\theta^* = \arg\min_\theta L(C(\theta)) + \lambda \cdot (P(C(\theta)) - C_{1.6})\),目标是在带宽约束 1.6 Mbps 下最大化任务性能。\(\lambda\) 动态调整。
实验关键数据¶
主实验¶
协同语义分割(OPV2V 数据集,应用于 CoBEVT/AttFuse/DiscoNet):
| 配置 | 动态 IoU | 带宽使用率 | 带宽降低 |
|---|---|---|---|
| CoBEVT 原版 | 基线 | 100% (40Mbps) | — |
| CooperTrim-CoBEVT | 可比 | 27.9% | 72.1% |
| CooperTrim-AttFuse | 可比 | 21.07% | 78.93% |
| CooperTrim-DiscoNet | 可比 | 10.18% | 89.82% |
vs 其他选择策略:
| 方法 | 动态 IoU | 带宽 (Mbps) |
|---|---|---|
| Where2Comm | 8.62 | 39.6 |
| SwissCheese | 35.71 | 10.0 |
| CooperTrim | 54.03 | 11.16 |
消融实验¶
| 分析 | 关键发现 |
|---|---|
| +压缩(32x) | 带宽降至 1.46% 且 IoU 不降 |
| 定位误差鲁棒性 | 在位置噪声下性能优雅退化 |
| 通信延迟鲁棒性 | 对延迟保持稳定 |
| 帧级分析 | 动态场景自动分配更多带宽,静态场景带宽极低 |
关键发现¶
- 平均带宽降低 80.28%(分割)和 72.52%(检测)且性能可比
- CooperTrim 比 Where2Comm IoU 高 45.41%,带宽低 72%
- 与压缩方法正交——叠加后可降至 1.46% 带宽
- 定性分析证实自适应行为:车辆通过交叉路口时带宽使用增加,直行时降低
亮点与洞察¶
- 时序信息的巧妙利用:将"帧间变化"直接作为不确定性度量——简单但高效,避免了复杂的不确定性建模
- 首个协同分割的选择性感知:分割需要像素级精度,比检测更挑战带宽——能实现 80%+ 降低非常impressive
- 与压缩的正交性:选择+压缩叠加可达 1.46% 带宽,说明两种策略互补
- \(\epsilon\)-Greedy 训练的理论保证:对稀疏特征训练的梯度偏差给出了严格的缩放分析
局限性 / 可改进方向¶
- 假设精确位姿——实际中 GPS/定位误差可能影响空间变换
- 仅在 2 个数据集(OPV2V + V2V4Real)上验证,场景多样性有限
- 共形时序不确定性仅用 L1 距离,未考虑语义级别的变化
- 可学习阈值 \(q\) 和 \(\tau\) 可能在域迁移时需要重新调整
- 未考虑多跳通信和异构传感器配置
相关工作与启发¶
- vs Where2Comm: Where2Comm 用静态置信度图+固定阈值,忽略时序。CooperTrim 用时序不确定性+自适应阈值,IoU 高 45%+,带宽低 72%
- vs SwissCheese: SwissCheese 用固定阈值做通道/空间选择。CooperTrim 的自适应机制在相近带宽下 IoU 高 18%+
- vs UniSense: UniSense 用不确定性驱动选择但逐帧独立,CooperTrim 用时序对比减少冗余传输
- 对边缘AI的启发:时序差异驱动的按需传输思路可迁移到任何带宽受限的分布式感知场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 时序不确定性+自适应量的组合新颖,但各组件不是全新的
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型/多任务/多策略对比+压缩兼容性+鲁棒性分析
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,但部分公式可以更简洁
- 价值: ⭐⭐⭐⭐ 对协同感知实际部署有显著推动