SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion¶

会议: CVPR 2026
arXiv: 2603.12764
代码: github.com/jack1ee/SAVAX
领域: 视频理解 / 跨视角错误检测
关键词: Ego-Exo, 模仿错误检测, 跨视角融合, 自适应采样, 视角嵌入

一句话总结¶

提出Align-Fuse-Detect框架SAVA-X，通过Gumbel Top-K自适应采样去冗余、场景自适应视角嵌入缩小域差距、双向交叉注意力融合互补语义，在EgoMe数据集上Mean AUPRC达22.36，超越最强baseline +13.56%。

背景与动机¶

工业装配、医疗训练等场景需检测操作者的模仿错误——操作者看第三人称(exo)示范视频进行第一人称(ego)模仿。现有方法主要假设单视角输入，无法处理跨视角的域差异(ego关注手-物交互/exo关注全身布局)、时间不对齐(节奏差异)和严重冗余(大量无信息帧)的耦合挑战。

核心问题¶

给定异步录制的exo示范和ego模仿视频，在ego时间线上定位操作步骤并判断每步是否为错误模仿。

方法详解¶

整体框架¶

冻结TSP编码器提取逐帧特征 → 三阶段：(1)Gated Adaptive Sampling选关键帧 → (2)Scene-Adaptive View Embeddings注入视角条件 → (3)Bidirectional Cross-Attention Fusion双向融合 → Deformable Transformer预测动作段+错误分类。

关键设计¶

Gated Adaptive Sampling (AS): Gumbel Top-K离散帧选择+残差门控(soft indices缩放原始特征)提供可微梯度路径。Exo端用自注意力评分选关键帧；Ego端用以exo摘要为K/V的交叉注意力评分。附加选择熵正则+VICReg正则防止坍塌。
Scene-Adaptive View Embeddings (SVE): 共享视角-场景字典\(D \in \mathbb{R}^{M \times d}\)，通过带温度τ的交叉注意力根据当前帧自适应查询字典生成视角嵌入。比固定可学习视角token更灵活——可跨场景自适应。用注意力熵正则+字典多样性正则确保覆盖广泛。
Bidirectional Cross-Attention Fusion (BiX): 对称双向——Ego查询Exo获取全局线索，Exo查询Ego获取手-物细节。可学习sigmoid门控残差混合。双向优于单向(21.06 vs 20.73/19.48)。

损失函数 / 训练策略¶

匈牙利匹配集合预测损失(时间GIoU+focal分类+事件计数)+模仿错误BCE损失(query-level+video-level)+多项正则。AdamW, lr=1e-4, batch 16。

实验关键数据¶

数据集	指标	SAVA-X	Exo2EgoDVC	PDVC	提升
EgoMe Val	Mean AUPRC	22.36	19.69	18.88	+13.56%
EgoMe Val	AUPRC@0.5	24.04	-	20.48	+17.4%
EgoMe Test	Mean AUPRC	18.50	15.99	16.20	+14.2%

ActionFormer等TAL方法表现更差(16.47)。仅用ego输入PDVC降至12.79，说明exo信息至关重要。

消融实验要点¶

AS单独贡献+10.70%，SVE+12.76%（最大），BiX+11.55%——三者互补
SVE+BiX是最强两两组合(22.33)，接近完整模型(22.36)
双向融合(21.06)优于Exo→Ego单向(20.73)和Ego→Exo单向(19.48)
SVE优于固定视角嵌入，且对字典大小M稳健

亮点¶

首次形式化Ego→Exo模仿错误检测任务，建立统一评估协议
模块设计与挑战一一对应：AS→冗余、SVE→域差距、BiX→跨视角融合
Gumbel Top-K + 残差门控的采样策略可迁移到其他帧选择任务

局限性 / 可改进方向¶

仅在EgoMe一个数据集上验证
使用冻结TSP backbone，未探索更强视频基础模型
假设exo示范本身正确，未处理步骤顺序错误

与相关工作的对比¶

Exo2EgoDVC: 用视角不变对抗学习做exo→ego迁移，Mean AUPRC 19.69 vs 本文22.36
PDVC: 经典端到端DVC+简单拼接融合，18.88 vs 22.36

启发与关联¶

跨视角自适应采样和场景自适应嵌入思路可迁移到多视角视频问答/检索

评分¶

新颖性: ⭐⭐⭐⭐ 任务新颖，模块设计合理
实验充分度: ⭐⭐⭐⭐ 消融详尽但仅单数据集
写作质量: ⭐⭐⭐⭐ 问题-方法-验证对应清晰
价值: ⭐⭐⭐⭐ 对跨视角视频理解有参考价值