Robust Ego-Exo Correspondence with Long-Term Memory¶
会议: NeurIPS 2025
arXiv: 2510.11417
代码: GitHub
领域: segmentation / video understanding
关键词: 自中心-外中心对应, SAM2, MoE, 视频对象分割, 长期记忆
一句话总结¶
提出LM-EEC,基于SAM 2的自中心-外中心(ego-exo)视频跨视角目标分割框架,通过Memory-View MoE自适应融合记忆特征与跨视角特征,配合双记忆库压缩策略保持长期信息,在EgoExo4D基准上大幅超越现有方法(Ego2Exo IoU 54.98 vs 38.26)。
背景与动机¶
- 任务定义:给定同步的ego/exo视频对和一个视角的目标mask,在另一个视角中分割同一目标——是AR/机器人的关键能力。
- 现有痛点:XView-XMem等VOS方法无法处理极端视角变化、遮挡和小目标。SAM 2虽泛化能力强,但简单地将记忆特征和prompt直接相加导致跨视角融合不足,且FIFO记忆管理丢失长期信息。
- 核心思路:用MoE思想自适应融合两种特征 + 双记忆库分别存ego/exo + 基于时间冗余的压缩策略。
方法详解¶
整体框架¶
基于SAM 2构建,三个核心组件:多视角编码、双记忆压缩、目标mask预测。
关键设计1: Memory-View MoE (MV-MoE)¶
- 将记忆感知特征 \(F_{mem}\) 和跨视角特征 \(F_{view}\) 视为两个互补"专家"
- 通道路由:拼接→全局池化→两路MLP→sigmoid权重→残差调制
- 空间路由:拼接→两路Conv-ReLU-Conv-Sigmoid→空间权重→残差调制
- 最终两个精细化特征相加得到融合特征 \(F_{tar}\)
- 设计轻量,避免了传统MoE的网络级稀疏复杂度
关键设计2: 双记忆库+压缩策略¶
- 双记忆库:ego和exo特征分别存储(而非统一存储),充分利用互补信息
- 压缩策略:当记忆超过容量M时,对每个空间位置计算相邻帧间欧式距离,找最相似的相邻帧对,取平均合并——减少冗余保留长期信息
- 仅在推理时应用压缩
训练细节¶
- 基于SAM 2 Base预训练,8帧训练,记忆库大小6
- 8×A100联合训练60 epochs,输入resize到480×480
实验关键数据¶
EgoExo4D Test Set¶
| 方法 | Ego2Exo IoU↑ | Ego2Exo LE↓ | Exo2Ego IoU↑ | Exo2Ego LE↓ |
|---|---|---|---|---|
| XView-XMem+XSegTx | 34.90 | 0.038 | 25.00 | 0.117 |
| SimVOS | 38.26 | 0.090 | 40.67 | 0.099 |
| Cutie | 27.03 | 0.108 | 47.52 | 0.070 |
| Base model (SAM2+双记忆) | 52.13 | 0.024 | 57.27 | 0.047 |
| LM-EEC | 54.98 | 0.017 | 65.77 | 0.031 |
消融实验(Ego2Exo Val)¶
| 组件 | IoU↑ |
|---|---|
| 无跨视角prompt | 0.5691 |
| 简单相加 (base) | 0.5673 |
| MV-MoE | 0.5925 |
| 无ego记忆 | 0.5748 |
| 无exo记忆 | 0.5420 |
| FIFO策略 | 0.5823 |
| 本文压缩策略 | 0.5925 |
亮点¶
- 首次将MoE思想引入ego-exo跨视角特征融合,自适应通道+空间双路由
- 双记忆库设计合理区分了ego/exo视角的不同特性
- 压缩策略简洁有效——仅用相邻帧欧式距离+平均合并
- Exo2Ego任务相比第二名提升18.25 IoU
局限性 / 可改进方向¶
- 推理速度仅8.4 FPS(V100),实时应用有距离
- BA指标(物体存在性判断)相比XSegTx仍有差距(64.22 vs 66.31)
- 压缩策略较为简单(平均合并),可能丢失关键帧的独特信息
与相关工作的对比¶
- vs SAM 2:SAM 2直接相加prompt和memory特征导致分布冲突;LM-EEC的MoE路由自适应调权
- vs XMem/Cutie:这些VOS模型不区分ego/exo视角差异,直接应用效果差
- vs XSegTx:XSegTx是co-segmentation方法,在BA上有优势但IoU差距大
启发与关联¶
- MoE特征融合思路可迁移到其他多视角/多模态分割任务
- 双记忆库+压缩策略对长视频理解有普适参考价值
- ego-exo对应是AR/机器人领域的核心问题,值得持续关注
评分¶
- 新颖性: ⭐⭐⭐⭐ MoE融合+双记忆压缩的组合设计
- 实验充分度: ⭐⭐⭐⭐ 多基线对比+完整消融+不同目标大小分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表说明到位
- 价值: ⭐⭐⭐⭐ 在ego-exo对应任务上建立了新SOTA