跳转至

Robust Ego-Exo Correspondence with Long-Term Memory

会议: NeurIPS 2025
arXiv: 2510.11417
代码: GitHub
领域: segmentation / video understanding
关键词: 自中心-外中心对应, SAM2, MoE, 视频对象分割, 长期记忆

一句话总结

提出LM-EEC,基于SAM 2的自中心-外中心(ego-exo)视频跨视角目标分割框架,通过Memory-View MoE自适应融合记忆特征与跨视角特征,配合双记忆库压缩策略保持长期信息,在EgoExo4D基准上大幅超越现有方法(Ego2Exo IoU 54.98 vs 38.26)。

背景与动机

  1. 任务定义:给定同步的ego/exo视频对和一个视角的目标mask,在另一个视角中分割同一目标——是AR/机器人的关键能力。
  2. 现有痛点:XView-XMem等VOS方法无法处理极端视角变化、遮挡和小目标。SAM 2虽泛化能力强,但简单地将记忆特征和prompt直接相加导致跨视角融合不足,且FIFO记忆管理丢失长期信息。
  3. 核心思路:用MoE思想自适应融合两种特征 + 双记忆库分别存ego/exo + 基于时间冗余的压缩策略。

方法详解

整体框架

基于SAM 2构建,三个核心组件:多视角编码、双记忆压缩、目标mask预测。

关键设计1: Memory-View MoE (MV-MoE)

  • 将记忆感知特征 \(F_{mem}\) 和跨视角特征 \(F_{view}\) 视为两个互补"专家"
  • 通道路由:拼接→全局池化→两路MLP→sigmoid权重→残差调制
  • 空间路由:拼接→两路Conv-ReLU-Conv-Sigmoid→空间权重→残差调制
  • 最终两个精细化特征相加得到融合特征 \(F_{tar}\)
  • 设计轻量,避免了传统MoE的网络级稀疏复杂度

关键设计2: 双记忆库+压缩策略

  • 双记忆库:ego和exo特征分别存储(而非统一存储),充分利用互补信息
  • 压缩策略:当记忆超过容量M时,对每个空间位置计算相邻帧间欧式距离,找最相似的相邻帧对,取平均合并——减少冗余保留长期信息
  • 仅在推理时应用压缩

训练细节

  • 基于SAM 2 Base预训练,8帧训练,记忆库大小6
  • 8×A100联合训练60 epochs,输入resize到480×480

实验关键数据

EgoExo4D Test Set

方法 Ego2Exo IoU↑ Ego2Exo LE↓ Exo2Ego IoU↑ Exo2Ego LE↓
XView-XMem+XSegTx 34.90 0.038 25.00 0.117
SimVOS 38.26 0.090 40.67 0.099
Cutie 27.03 0.108 47.52 0.070
Base model (SAM2+双记忆) 52.13 0.024 57.27 0.047
LM-EEC 54.98 0.017 65.77 0.031

消融实验(Ego2Exo Val)

组件 IoU↑
无跨视角prompt 0.5691
简单相加 (base) 0.5673
MV-MoE 0.5925
无ego记忆 0.5748
无exo记忆 0.5420
FIFO策略 0.5823
本文压缩策略 0.5925

亮点

  1. 首次将MoE思想引入ego-exo跨视角特征融合,自适应通道+空间双路由
  2. 双记忆库设计合理区分了ego/exo视角的不同特性
  3. 压缩策略简洁有效——仅用相邻帧欧式距离+平均合并
  4. Exo2Ego任务相比第二名提升18.25 IoU

局限性 / 可改进方向

  1. 推理速度仅8.4 FPS(V100),实时应用有距离
  2. BA指标(物体存在性判断)相比XSegTx仍有差距(64.22 vs 66.31)
  3. 压缩策略较为简单(平均合并),可能丢失关键帧的独特信息

与相关工作的对比

  • vs SAM 2:SAM 2直接相加prompt和memory特征导致分布冲突;LM-EEC的MoE路由自适应调权
  • vs XMem/Cutie:这些VOS模型不区分ego/exo视角差异,直接应用效果差
  • vs XSegTx:XSegTx是co-segmentation方法,在BA上有优势但IoU差距大

启发与关联

  • MoE特征融合思路可迁移到其他多视角/多模态分割任务
  • 双记忆库+压缩策略对长视频理解有普适参考价值
  • ego-exo对应是AR/机器人领域的核心问题,值得持续关注

评分

  • 新颖性: ⭐⭐⭐⭐ MoE融合+双记忆压缩的组合设计
  • 实验充分度: ⭐⭐⭐⭐ 多基线对比+完整消融+不同目标大小分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表说明到位
  • 价值: ⭐⭐⭐⭐ 在ego-exo对应任务上建立了新SOTA