SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion¶
会议: CVPR 2026
arXiv: 2603.12764
代码: github.com/jack1ee/SAVAX
领域: 视频理解 / 跨视角错误检测
关键词: Ego-Exo, 模仿错误检测, 跨视角融合, 自适应采样, 视角嵌入
一句话总结¶
提出Align-Fuse-Detect框架SAVA-X,通过Gumbel Top-K自适应采样去冗余、场景自适应视角嵌入缩小域差距、双向交叉注意力融合互补语义,在EgoMe数据集上Mean AUPRC达22.36,超越最强baseline +13.56%。
背景与动机¶
工业装配、医疗训练等场景需检测操作者的模仿错误——操作者看第三人称(exo)示范视频进行第一人称(ego)模仿。现有方法主要假设单视角输入,无法处理跨视角的域差异(ego关注手-物交互/exo关注全身布局)、时间不对齐(节奏差异)和严重冗余(大量无信息帧)的耦合挑战。
核心问题¶
给定异步录制的exo示范和ego模仿视频,在ego时间线上定位操作步骤并判断每步是否为错误模仿。
方法详解¶
整体框架¶
冻结TSP编码器提取逐帧特征 → 三阶段:(1)Gated Adaptive Sampling选关键帧 → (2)Scene-Adaptive View Embeddings注入视角条件 → (3)Bidirectional Cross-Attention Fusion双向融合 → Deformable Transformer预测动作段+错误分类。
关键设计¶
-
Gated Adaptive Sampling (AS): Gumbel Top-K离散帧选择+残差门控(soft indices缩放原始特征)提供可微梯度路径。Exo端用自注意力评分选关键帧;Ego端用以exo摘要为K/V的交叉注意力评分。附加选择熵正则+VICReg正则防止坍塌。
-
Scene-Adaptive View Embeddings (SVE): 共享视角-场景字典\(D \in \mathbb{R}^{M \times d}\),通过带温度τ的交叉注意力根据当前帧自适应查询字典生成视角嵌入。比固定可学习视角token更灵活——可跨场景自适应。用注意力熵正则+字典多样性正则确保覆盖广泛。
-
Bidirectional Cross-Attention Fusion (BiX): 对称双向——Ego查询Exo获取全局线索,Exo查询Ego获取手-物细节。可学习sigmoid门控残差混合。双向优于单向(21.06 vs 20.73/19.48)。
损失函数 / 训练策略¶
匈牙利匹配集合预测损失(时间GIoU+focal分类+事件计数)+模仿错误BCE损失(query-level+video-level)+多项正则。AdamW, lr=1e-4, batch 16。
实验关键数据¶
| 数据集 | 指标 | SAVA-X | Exo2EgoDVC | PDVC | 提升 |
|---|---|---|---|---|---|
| EgoMe Val | Mean AUPRC | 22.36 | 19.69 | 18.88 | +13.56% |
| EgoMe Val | AUPRC@0.5 | 24.04 | - | 20.48 | +17.4% |
| EgoMe Test | Mean AUPRC | 18.50 | 15.99 | 16.20 | +14.2% |
ActionFormer等TAL方法表现更差(16.47)。仅用ego输入PDVC降至12.79,说明exo信息至关重要。
消融实验要点¶
- AS单独贡献+10.70%,SVE+12.76%(最大),BiX+11.55%——三者互补
- SVE+BiX是最强两两组合(22.33),接近完整模型(22.36)
- 双向融合(21.06)优于Exo→Ego单向(20.73)和Ego→Exo单向(19.48)
- SVE优于固定视角嵌入,且对字典大小M稳健
亮点¶
- 首次形式化Ego→Exo模仿错误检测任务,建立统一评估协议
- 模块设计与挑战一一对应:AS→冗余、SVE→域差距、BiX→跨视角融合
- Gumbel Top-K + 残差门控的采样策略可迁移到其他帧选择任务
局限性 / 可改进方向¶
- 仅在EgoMe一个数据集上验证
- 使用冻结TSP backbone,未探索更强视频基础模型
- 假设exo示范本身正确,未处理步骤顺序错误
与相关工作的对比¶
- Exo2EgoDVC: 用视角不变对抗学习做exo→ego迁移,Mean AUPRC 19.69 vs 本文22.36
- PDVC: 经典端到端DVC+简单拼接融合,18.88 vs 22.36
启发与关联¶
- 跨视角自适应采样和场景自适应嵌入思路可迁移到多视角视频问答/检索
评分¶
- 新颖性: ⭐⭐⭐⭐ 任务新颖,模块设计合理
- 实验充分度: ⭐⭐⭐⭐ 消融详尽但仅单数据集
- 写作质量: ⭐⭐⭐⭐ 问题-方法-验证对应清晰
- 价值: ⭐⭐⭐⭐ 对跨视角视频理解有参考价值