O-MaMa: Learning Object Mask Matching between Egocentric and Exocentric Views¶

会议: ICCV 2025
arXiv: 2506.06026
代码: Maria-SanVil/O-MaMa
领域: Segmentation / Cross-View Understanding
关键词: Cross-View Segmentation, Mask Matching, Ego-Exo Correspondences, Contrastive Learning, DINOv2

一句话总结¶

将跨视角（ego-exo）物体分割任务重新定义为 mask matching 问题，利用 FastSAM 生成候选 mask、DINOv2 提取语义特征、对比学习匹配跨视角物体，在 Ego-Exo4D 基准上以仅 1% 可训练参数实现 SOTA。

研究背景与动机¶

多智能体协作（多机器人操作、AR 助手、人机协作）需要建立第一人称（egocentric）和第三人称（exocentric）视角之间的物体对应关系。虽然单图分割已非常成熟，但跨视角分割面临独特挑战：

剧烈视角变换：ego 视角捕捉手-物交互细节但动态强、运动模糊严重；exo 视角覆盖全场景但物体尺度差异大

遮挡与域偏移：不同相机光学特性、成像条件导致的域差异

传统几何匹配失效：即使 SOTA 的 RoMa 在 ego-exo 场景下也仅有 67.6% 的成功率

核心洞察：与其让模型从零做跨视角分割（pixel-level 预测），不如利用 SAM 模型的零样本分割能力先生成高质量候选 mask，然后只需解决"哪个候选 mask 对应目标物体"的 matching 问题。

方法详解¶

整体框架¶

O-MaMa pipeline： 1. 在目标视角用 FastSAM 生成 $N$ 个候选 mask $\{\mathcal{M}_n\}_{n=1}^N$ 2. Mask-Context Encoder 提取每个 mask 的描述子 3. Ego↔Exo Cross Attention 融合跨视角全局信息 4. 通过 Mask Matching Contrastive Loss 学习视角不变特征 5. 推理时选择与源 mask 嵌入最相似的候选 mask

关键设计¶

Mask-Context Encoder（Mask 上下文编码器）：
- 使用 DINOv2 ViT-B/14 提取密集特征图 $\psi(I)$，上采样 4× 以保持细粒度
- 物体描述子 $\mathbf{o}_n$：在 mask 区域上对 DINOv2 特征做平均池化
- 上下文描述子 $\mathbf{c}_n$：在扩展 bounding box 区域上做平均池化，引入周围环境信息以辅助跨视角定位
- 设计动机：DINOv2 的自监督特征具有优秀的语义理解和物体分解能力。实验证明 Avg-Pool(mask) 优于 Avg-Pool(bbox)、Max-Pool(bbox)、Centroid、CLIP 特征
Hard Negative Adjacent Mining（邻近硬负例挖掘）：
- 问题：邻近物体共享相似上下文但物体本身不同，简单的全局负采样不足以学到区分能力
- 使用 Delaunay 三角剖分构建 mask 段的邻接图
- 取每个物体的 1 阶和 2 阶邻居：$\mathcal{O}_n^- = \mathcal{N}(\mathbf{o}_n) \cup \mathcal{N}^2(\mathbf{o}_n)$
- 从邻居集合中采样硬负例进行对比学习
- 消融显示此策略带来 +4.2 IoU (Ego2Exo) 和 +1.2 IoU (Exo2Ego) 提升
Ego↔Exo Cross Attention（跨视角交叉注意力）：
- 将候选 mask 描述子 $\mathbf{o}_n$ 作为 Query，源图像的完整 DINOv2 特征图 $\psi(I^S)$ 作为 Key/Value
- 计算标准 cross attention：$\hat{\mathbf{o}}_n = \text{Softmax}(\frac{\mathbf{o}_n W_Q \cdot (\psi(I^S) W_K)^\top}{\sqrt{d}}) \cdot \psi(I^S) W_V$
- 加入可学习位置编码和 LayerNorm
- 同样计算源 mask 在目标视角的跨视角嵌入 $\hat{\mathbf{o}}_S$
- 设计动机：上下文嵌入只包含局部信息，缺乏全局跨视角语义关联

损失函数 / 训练策略¶

Mask Matching Contrastive Loss：基于 InfoNCE，从邻近硬负例中采样 batch $\mathcal{B}$

$$\mathcal{L}_M(\rho^+, \rho_S) = -\log \frac{\exp(\text{sim}(f_\theta(\rho^+), f_\theta(\rho_S))/\tau)}{\sum_{n=1}^{|\mathcal{B}|} \exp(\text{sim}(f_\theta(\rho_n), f_\theta(\rho_S))/\tau)}$$

最终描述子 $\rho_n = [\hat{\mathbf{o}}_n; \mathbf{c}_n; \mathbf{o}_n]$（跨视角嵌入 + 上下文 + 物体），通过浅层 MLP $f_\theta$ 映射到共享潜在空间
优化器：AdamW，lr=$8 \times 10^{-5}$，cosine annealing，batch size=24 图像对，每张目标图采样 32 个候选 mask
设备：2× NVIDIA RTX 4090

实验关键数据¶

主实验 (表格)¶

Ego-Exo4D Correspondences v2 Test Split

方法	Ego2Exo IoU ↑	Exo2Ego IoU ↑	Total IoU ↑	训练参数(M)
XMem + XSegTx	34.9	25.0	30.0	67.1
PSALM (zero-shot)	7.4	2.1	4.8	0
k-NN baseline	31.9	30.9	31.4	0
O-MaMa	42.6	44.1	43.4	11.6

Ego-Exo4D Correspondences v1 Val Split

方法	Ego2Exo IoU ↑	Exo2Ego IoU ↑	Total IoU ↑	训练参数(M)
PSALM (fine-tuned)	41.3	44.1	42.7	1587.1
ObjectRelator	44.3	50.9	47.6	1587.3
O-MaMa	50.1	54.2	52.1	11.6

O-MaMa 超越 ObjectRelator(SOTA) +13.1%(Ego2Exo) / +6.5%(Exo2Ego)，但仅用 1% 训练参数。

消融实验 (表格)¶

各模块消融 (10% 验证集)

配置	$\mathcal{L}_M$	Context	Adj.Neg	CrossAttn	Ego2Exo IoU	Exo2Ego IoU	Total IoU
Baseline	✗	✗	✗	✗	35.2	34.9	35.1
A	✓	✗	✗	✗	42.2	44.7	43.5
C	✓	✓	✓	✗	46.9	45.6	46.3
E (full)	✓	✓	✓	✓	48.3	49.6	49.0

相对 baseline 的 IoU 提升：Ego2Exo +37.2%，Exo2Ego +42.1%。

Mask 描述子比较

描述子	k-NN Ego2Exo	k-NN Exo2Ego	学习后 Ego2Exo	学习后 Exo2Ego
Avg-Pool(Mask)-DINOv2	35.2	34.9	42.2	44.7
Avg-Pool(BBox)-DINOv2	21.8	21.2	27.8	44.1
Avg-Pool(BBox)-CLIP	24.5	23.9	27.5	40.4
Centroid-DINOv2	25.6	24.1	-	-

DINOv2 mask 池化特征远优于 CLIP 和其他池化策略。

关键发现¶

问题重定义是最大贡献：将跨视角分割转化为 mask matching，使得零样本 k-NN baseline（40.5 IoU）即超过许多训练模型
几何约束帮助有限：RoMa 成功率仅 67.6%，几何匹配相比对比学习提升微弱（35.2→35.4 vs 35.2→42.2）
DINOv2 > CLIP：在此任务中 DINOv2 的细粒度语义特征优于 CLIP 的粗粒度表示
小物体仍具挑战：O-MaMa 在中大型物体上表现优异，但极小物体的 mask 描述子难以提取有效信息
推理速度适中：平均 250ms（其中 FastSAM 70ms）

亮点与洞察¶

问题重定义的力量：将困难的 pixel-level 跨视角分割转化为 mask 级别的检索/匹配问题，大幅降低了任务难度，使得轻量模型即可达到 SOTA
DINOv2 的物体分解能力：自监督预训练的 DINOv2 提供了极其强大的 object-level 语义表示，甚至零样本即可超越专门训练的模型
Delaunay 三角剖分硬负例挖掘：巧妙利用空间邻近关系增强对比学习的区分能力，比随机负采样更有效
参数效率极高：11.6M 训练参数 vs ObjectRelator 的 1587.3M，说明 foundation model 的特征质量已经足够好，只需极少的任务适配

局限与展望¶

FastSAM 可能产生不完整的分割（只覆盖物体的一部分），导致匹配正确但 IoU 不够高
极小物体的 mask 描述子信息不足，是当前的主要瓶颈
未利用视频的时序信息（当前每帧独立处理），加入时序连续性可能进一步提升
依赖 FastSAM 的候选质量——如果目标物体未被任何候选 mask 覆盖则无法匹配
未探索 SAM2 等更强的分割模型作为候选生成器

评分¶

新颖性: ⭐⭐⭐⭐ 将跨视角分割重定义为 mask matching 是简洁有效的创新
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集分割、多基线对比、完整消融（模块/描述子/几何约束）、任务级分析
写作质量: ⭐⭐⭐⭐ 方法直观易懂，架构图清晰，实验分析细致
价值: ⭐⭐⭐⭐⭐ 1% 参数达 SOTA、问题重定义思想对跨视角理解任务有广泛启发