Procedural Mistake Detection via Action Effect Modeling¶
会议: ICLR 2026
arXiv: 2512.03474
代码: https://wenliangguo.github.io/Mistake_Detection (项目页)
领域: 目标检测 / 视频理解 / 动作识别
关键词: 程序性错误检测, 动作效果建模, 第一人称视频, 场景图, 多模态监督
一句话总结¶
提出双分支多模态监督的动作效果建模框架,结合视觉分支(目标状态和空间关系特征)和文本分支(GPT-4o 生成的场景图),通过可学习的效果 token 蒸馏外部监督信号,在第一人称程序视频中实现 SOTA 错误检测。
研究背景与动机¶
- 领域现状:程序性错误检测旨在从第一人称视频中识别操作者是否正确执行了步骤(如做菜时是否加错了调料)。现有方法主要关注动作的执行过程(how-to-do),但忽略了动作的执行效果(what-happened-after)。
- 现有痛点:仅建模动作过程无法区分"做了正确的动作但结果不对"的情况,例如"翻面"这个动作在执行上看起来一样,但结果是食物烧焦了就是错误的。
- 核心矛盾:同一个动作的正确与否取决于其效果(outcome),而效果体现在动作完成后的物体状态和空间关系变化中,需要理解"before-after"的因果关系。
- 本文要解决什么? 如何有效建模动作效果(物体状态变化 + 空间关系变化)来增强错误检测?
- 切入角度:从效果帧(动作完成后的关键帧)中提取物体状态和空间关系信息,通过视觉和文本双路径的多模态监督来学习效果表征。
- 核心idea一句话:选择最能反映动作结果的效果帧,从中提取物体状态和空间关系的视觉+文本表征,通过对齐学习蒸馏到可学习的效果 token 中。
方法详解¶
整体框架¶
在 ActionFormer 骨干上增加 Action Effect Modeling(AEM)模块:(1) 选择效果帧,(2) 视觉分支提取物体状态/关系特征,(3) 文本分支用 GPT-4o 生成场景图并编码,(4) 可学习效果 token 蒸馏双路径信息,(5) 基于提示的错误检测。
关键设计¶
- 效果帧采样:
- 做什么:从动作段中选择最能反映动作结果的关键帧
- 核心思路:综合语义相关性(段特征与 GPT-4o 描述嵌入的相似度)和视觉清晰度(拉普拉斯算子衡量的清晰度),排名取 top-1。
-
设计动机:效果帧的质量直接影响后续特征提取。最后一帧(naive baseline)AUC = 70.6,本方法 73.8,+3.2 提升。
-
视觉分支(双路径):
- 做什么:从效果帧中提取物体状态特征和空间关系特征
- 核心思路:(a) 状态路径:Grounding DINO 检测物体,图像编码器提取 RoI 特征拼接得到 F_s;(b) 关系路径:物体位置编码后拼接得到 F_r。两路特征分别通过 MLP 映射。
-
设计动机:状态(外观变化)和关系(位置变化)是动作效果的两个独立维度,分开建模更精准。
-
文本分支(场景图):
- 做什么:用 GPT-4o 从效果帧生成场景图,提供结构化的效果描述
- 核心思路:场景图 G=(V,E) 包含对象/关系/属性节点,分解为状态子图和关系子图,GNN 编码后池化得到文本侧特征 t_s 和 t_r。
-
设计动机:场景图提供了结构化的语义信息,与视觉特征互补。实验显示加入文本分支 AUC 从 68.4 提升到 71.7。
-
效果感知学习(Effect-Aware Learning):
- 做什么:通过可学习效果 token 蒸馏视觉和文本双路径的监督信号
- 核心思路:效果 token e 通过 MLP 映射后与视觉/文本特征对齐(L2 损失),同时视觉-文本之间做对比学习对齐。蒸馏后的效果 token 与动作特征拼接,送入检测器。
- 设计动机:效果 token 只在训练时需要外部模型(GPT-4o, Grounding DINO),推理时直接使用学到的 token,无额外开销。
损失函数¶
L = L_seg(动作分割)+ L_eff(效果对齐 L2)+ L_CL(视觉-文本对比)+ L_det(错误检测对比)
实验关键数据¶
主实验(EgoPER 数据集)¶
| 方法 | AUC | EDA |
|---|---|---|
| HF2-VAD | 59.9 | 27.1 |
| EgoPED | 62.0 | 57.0 |
| AMNAR | 68.5 | 64.4 |
| 本文 | 73.8 | 66.7 |
消融实验¶
| 组件 | AUC | EDA |
|---|---|---|
| Baseline (无 AEM) | 67.6 | 65.6 |
| + 视觉效果监督 | 68.4 | 66.1 |
| + 文本监督 | 69.4 | 66.3 |
| + 视觉+文本 (无对齐) | 71.7 | 66.4 |
| + 对齐的视觉+文本 | 73.8 | 66.7 |
关键发现¶
- 相比 AMNAR (SOTA), AUC 提升 5.3 个点
- 效果帧采样策略比 naive 最后一帧提升 3.2 AUC
- 空间关系特征 (AUC=72.6) 比物体状态特征 (AUC=69.9) 贡献更大
- 视觉-文本对齐比简单融合额外提升 2.1 AUC (71.7 -> 73.8)
- 开源 MLLM (Qwen3-VL) 生成场景图的效果(73.3)接近 GPT-4o (73.8)
亮点与洞察¶
- 动作效果建模:将错误检测从"动作是否正确执行"转向"动作结果是否正确",视角的转换非常有洞察力。
- 蒸馏式设计:训练时利用 GPT-4o 和 Grounding DINO 提供监督,推理时不需要这些模型。效果 token 起到了知识蒸馏的桥梁作用。
- 状态 vs 关系的分解:将动作效果分解为物体状态变化和空间关系变化两个维度,可迁移到更广泛的因果推理任务。
局限性 / 可改进方向¶
- 效果帧假设动作结束后立即可见效果,对于延迟效果(如慢煮)可能不适用
- GPT-4o 生成场景图的成本高,虽然推理时不需要,但训练时的数据准备耗时
- 仅在厨房操作等受限场景验证,对工业操作等更复杂场景的泛化性未知
- Grounding DINO 的物体检测精度直接影响视觉分支质量
相关工作与启发¶
- vs AMNAR: 此前 SOTA,使用异常检测范式;本文显式建模动作效果,更具解释性
- vs EgoPED: 早期方法,不建模效果;本文显著超越
- vs ActionFormer: 骨干网络,本文在其上增加 AEM 模块
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 动作效果建模的视角非常新颖且有说服力
- 实验充分度: ⭐⭐⭐⭐ 两个数据集 + 详细消融,但场景较局限(仅厨房)
- 写作质量: ⭐⭐⭐⭐ 公式推导清晰,概率框架优雅
- 价值: ⭐⭐⭐⭐ 为程序性视频理解提供了新方法论