GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization¶

会议: CVPR 2026
arXiv: 2604.01383
代码: 无
领域: Video Understanding / Zero-Shot Temporal Localization
关键词: 零样本时序定位, 接触检测, SAM2, Grounding DINO, 运动感知

一句话总结¶

提出 GRAZE，一个无需训练的管线，利用 Grounding DINO 发现候选交互、SAM2 掩码重叠作为像素级接触验证器，在 738 段美式橄榄球训练视频中实现 97.4% 覆盖率和 ±10 帧内 77.5% 的接触起始帧定位精度。

研究背景与动机¶

在接触类体育项目（如美式橄榄球）的训练视频分析中，首次接触点（FPOC, First Point of Contact）定位是生物力学分析的关键。教练和运动科学家需要精确知道运动员何时与假人发生身体接触，才能进行碰撞姿态评估和动力学分析。

然而，实际训练视频面临严峻挑战： - 手持/固定相机拍摄：画面抖动、平移严重 - 多人场景：穿着相似装备的多名运动员共处画面，造成干扰 - 外观变化大：不同训练场次的装备、灯光差异巨大 - 检测置信度 ≠ 物理接触：边界框重叠不代表真正的身体接触，真正接触时反而可能因遮挡而失去重叠

核心难点在于候选发现与接触确认之间的鸿沟：检测模型衡量的是外观相似度，而非物理交叉。本文的核心洞见是将 SAM2 不作为被动的分割后端，而作为主动的像素级接触验证器——通过掩码交集直接提供接触证据，与检测置信度完全解耦。

方法详解¶

整体框架¶

GRAZE 是一个四阶段的零样本管线，无需任何领域特定训练： 1. Grounding（候选发现）：用 Grounding DINO 在多个时间位置搜索运动员-假人对 2. Validation（运动验证）：通过时间一致性和方向运动评分对候选排序 3. Refinement（时间精化）：向后回溯找到最早的双物体共现帧 tFFBO 4. Contact Verification（接触验证）：SAM2 传播掩码，首个掩码重叠帧即为 FPOC

关键设计¶

层次化提示与渐进搜索：
- 三级提示层次：\(\mathcal{P} = \{P_{\text{gear}}, P_{\text{nogear}}, P_{\text{generic}}\}\)，从最详细（头盔+冲刺姿态描述）到最通用（向红色物体跑去的人）
- 在视频 6 个时间位置探测，每个位置尝试 3 个逐步放宽的检测阈值
- 穷举收集所有有效候选，而非首次成功即停止——因为检测质量与接触质量不是单调相关的
方向运动评分：
- 位移分数 \(m_{\text{disp}}\)：衡量候选运动员在验证窗口内的移动量（归一化到 200 像素）
- 方向接近分数 \(m_{\text{dir}}\)：运动向量与朝向假人方向的余弦相似度，缩放到 [0,1]
- 组合排序分数：\(\text{conf}_{\text{overall}} = 0.3 c_{\text{cons}} + 0.3 m_{\text{disp}} + 0.4 m_{\text{dir}}\)
- 通过 \(m_{\text{disp}} < 0.08\) 或 \(m_{\text{dir}} < 0.30\) 过滤静止旁观者和横向移动运动员
两阶段向后精化：
- Phase 1：从 grounding 帧逐帧向后步进，允许最多一次连续缺失
- Phase 2：指数偏移探测（{5, 10, 20, 50} 帧），找到候选后进行二分搜索定位最早一致帧
- 解决 grounding 偏差：grounding 在接触中段最可靠（双物体同时突出），导致 \(t_g\) 系统性晚于真实起始
SAM2 接触验证：
- 在 \(t_{\text{FFBO}}\) 用精化的边界框初始化 SAM2，分别传播运动员和假人的二值掩码
- 接触量化：\(\text{overlap}_t = \sum_{x,y} \mathcal{M}_t^{(P)}(x,y) \wedge \mathcal{M}_t^{(D)}(x,y)\)
- FPOC = 掩码重叠达到至少 1 像素的最早帧
- 若无重叠则拒绝当前候选，评估排名下一个——多候选回退机制

损失函数 / 训练策略¶

无训练方法，不涉及损失函数。所有组件均使用预训练模型的零样本能力。

实验关键数据¶

主实验¶

指标	GRAZE	SOLE (B1)	TRACE (B2)	MARS (B3)
覆盖率	97.4%	92.0%	46.9%	91.9%
±5帧 end-to-end	71.4%	68.0%	—	68.2%
±10帧 end-to-end	77.5%	70.6%	—	70.7%
±20帧 end-to-end	82.7%	72.6%	—	72.6%
±20帧 conditional	91.6%	85.8%	—	85.7%
灾难性错误率 (	err	≥20)	8.4%	14.2%

数据集：738 段未剪切橄榄球训练视频，30fps，681 段有帧级 GT 标注。

消融实验¶

配置	覆盖率	±10帧	说明
SOLE (仅单提示+SAM2)	92.0%	70.6%	最简基线
TRACE (+时间验证+回溯)	46.9%	—	无方向过滤→覆盖率崩溃
MARS (+运动评分)	91.9%	70.7%	单独使用运动评分改善有限
GRAZE (完整)	97.4%	77.5%	各组件协同的乘法效应

关键发现¶

检测置信度 ≠ 接触证据：这是整个方法的核心认知。SAM2 掩码交集提供了独立于检测模型的几何接触证据
方向运动过滤对覆盖率至关重要：TRACE 因缺少方向过滤导致覆盖率暴跌至 46.9%——时间一致性本身无法区分活跃冲撞者和静止旁观者
向后精化主要惠及宽容度下的精度：±5帧处 GRAZE 略低于 baseline（79.1% vs 80.4%），但灾难性错误率减半（8.4% vs 14.3%）
多组件协同效应：运动评分单独使用几乎无提升，但与多候选回退结合后，在 SAM2 验证前有效抑制干扰候选

亮点与洞察¶

将 SAM2 重新定位为接触验证器：超越了将其作为被动分割后端的传统用法，利用掩码交集作为物理接触的直接几何证据
无训练即达到高性能：97.4% 覆盖率和 91.6% 条件精度，无需任何标注数据或微调
工程设计精良：穷举候选收集 + 排名回退机制，确保了系统在各种退化条件下的鲁棒性
问题定义清晰：将 FPOC 与一般动作定位区分——后者回答"动作看起来像什么"，前者回答"两个物体是否物理交叉"

局限性 / 可改进方向¶

领域特异性强：管线高度针对"人撞击假人"场景设计，提示模板和参数均为此场景定制
±5帧处略有退化：向后精化偶尔多退 1-2 帧，导致窄容度下精度微降
依赖 Grounding DINO 和 SAM2 的零样本能力：场景差异极大时可能失效
无外部基线对比：仅与自身消融版本比较，缺少与监督方法或其他零样本方法的对比
仅支持单次接触事件：未处理视频中多次连续接触的情况

评分¶

新颖性: ⭐⭐⭐⭐ — SAM2 作为接触验证器的用法巧妙，但整体是现有模块的组装
实验充分度: ⭐⭐⭐ — 738 视频规模可观，但缺少外部基线对比
写作质量: ⭐⭐⭐⭐ — 问题定义和方法阐述清晰，公式化规范
价值: ⭐⭐⭐ — 应用领域较窄，但核心洞见（检测≠接触）有一定普适性