GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization¶

会议: CVPR 2026
arXiv: 2604.01383
代码: 有
领域: LLM推理 / 零样本时间定位
关键词: 零样本事件定位, 运动感知, 视觉grounding, SAM2掩码验证, 无训练

一句话总结¶

提出GRAZE，一种完全无训练的时空事件定位管线——用Grounding DINO发现候选player-dummy交互对，通过运动感知的几何评分（位移幅度+方向余弦相似度）排序候选，再用SAM2掩码传播作为独立的像素级接触验证器（而非依赖检测置信度），配合两阶段后向精化恢复事件起始帧，在738个橄榄球练习视频上97.4%有效输出率、77.5%在±10帧内定位。

研究背景与动机¶

领域现状：橄榄球练习产生大量视频，但感兴趣的动作（首次接触点FPOC）仅占每段视频的极短窗口。精确到帧的定位对生物力学分析（撞击姿态评估、防护训练评分）至关重要。

现有痛点：(1) 练习视频与广播视频截然不同——手持相机、抖动、多个穿相同装备的运动员、背景杂乱；(2) 检测置信度衡量的是文本-图像共现而非物理接触——bbox可能在接触前就重叠，也可能在接触时因遮挡不重叠；(3) 无标注数据可用→必须零样本。

核心洞察：将候选发现与接触确认分离——发现用Grounding DINO做开放词汇检测，确认用SAM2掩码的像素级重叠→两者是不同的量不应混为一谈。

核心idea：(1) 层级prompt调度(gear/no-gear/generic)+渐进阈值松弛→穷举收集所有候选；(2) 几何运动评分（位移+接近方向）排序候选；(3) SAM2掩码传播做接触验证→掩码交集=物理接触的直接证据；(4) 两阶段后向精化（顺序回溯+二分搜索）校正grounding固有的时间偏差。

方法详解¶

整体框架¶

四阶段管线：(1) Grounding — Grounding DINO在多个时间位置+层级prompt+渐进阈值搜索→收集所有有效player-dummy候选对。(2) Validation — 每个候选在14个邻帧做时序一致性验证+几何运动评分排序。(3) Refinement+Segmentation — 后向精化恢复FFBO(首帧双对象可见)→SAM2从该帧传播player和dummy掩码。(4) Contact Verification — FPOC = 传播掩码首次重叠的帧。无重叠→尝试下一排名候选。

关键设计¶

层级Prompt调度：三级prompt从精确到泛化(装备描述→无装备→通用人物)，每级与固定dummy prompt配对→覆盖外观变化。六个时间位置×三级阈值穷举搜索→收集而非首次匹配返回
几何运动评分：
- 位移评分：\(c_{disp} = \min(\frac{d}{200}, 1)\)，d是14帧验证窗口内player中心的总位移→大位移=主动接近
- 方向评分：\(c_{dir} = \frac{1+\cos(\mathbf{v}_{player}, \mathbf{v}_{approach})}{2}\)，运动方向与朝向dummy方向的余弦相似度→正向接近=高分
- 综合排序让主动冲向dummy的player排在站立旁观者前面
SAM2作为接触验证器（核心创新）：
- 标准用法：SAM2生成掩码→下游使用掩码
- GRAZE用法：两个独立传播的掩码（player+dummy）的交集=接触的直接几何证据→完全与检测置信度解耦
- 优势：检测置信度与物理接触不相关（高置信≠接触，低置信≠无接触），掩码交集是接触的必要充分条件
两阶段后向精化：
- 问题：Grounding在mid-contact时最可靠（两物体同时显著）→系统性偏晚于真实起始
- 解决：先顺序回溯（逐帧检查双对象可见性直到消失）→再二分搜索精确定位FFBO→从FFBO开始传播掩码检测FPOC

检测分类¶

每个检测根据标签关键词+高宽比+面积+边缘位置分类为player或dummy
Dummy要求AR>2.0（直立）；Player不限AR（冲撞时可能水平）
最佳dummy按0.4×置信+0.3×中心距离+0.3×垂直度加权选择

实验关键数据¶

主实验（738个橄榄球练习视频）¶

指标	结果
有效输出率	97.4%
±10帧内定位	77.5%
±20帧内定位	82.7%

完全零样本，无任何领域特定训练。

消融实验¶

配置	±10帧准确率
单prompt级	下降
无运动评分	下降（旁观者干扰）
直接用检测置信度而非SAM2掩码	显著下降
无后向精化	系统性偏晚
完整GRAZE	77.5%

关键发现¶

SAM2掩码验证vs检测置信度→掩码方法的优势在遮挡严重时最明显（接触瞬间往往遮挡最重→检测置信度最不可靠时正是掩码验证最需要时）
几何运动评分有效区分了active tackler和stationary bystander——练习场景中多个穿相同装备的运动员在画面中是常态
后向精化成功校正了grounding的mid-contact偏差→平均将定位提前了5-8帧

亮点与洞察¶

检测≠接触的核心洞察：Grounding DINO检测的是"共现"，SAM2掩码的交集才是"接触"——这个解耦对任何需要物理交互判断的领域都有启发（碰撞检测、手-物体交互等）
完全无训练的系统级方案：Grounding DINO+SAM2+几何评分+后向精化→四个现成组件的巧妙组合实现了需要大量标注才能train的功能
穷举收集+排序验证的pipeline设计：不贪心返回第一个成功→收集所有候选→排序→逐个验证直到SAM2确认→鲁棒性大幅提升

局限与展望¶

SAM2掩码传播在快速运动+运动模糊时可能失败
当前仅支持player-dummy交互→player-player接触(实际对抗)更复杂
几何运动评分的阈值和权重是手工设定的
738个视频来自特定练习设置→不同场地/设备的泛化待验证

评分¶

新颖性: ⭐⭐⭐⭐ SAM2作为接触验证器+候选发现与确认解耦
实验充分度: ⭐⭐⭐⭐ 738个真实练习视频+消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 对体育分析和零样本视频理解有实用价值

会议: CVPR 2026
arXiv: 2604.01383
代码: 有
领域: LLM推理 / 运动分析
关键词: 零样本事件定位, 首触点检测, Grounding DINO, SAM2验证, 运动评分

一句话总结¶

提出GRAZE，一种无需训练的管线用于美式橄榄球练习视频中的首触点(FPOC)定位——利用Grounding DINO进行层级prompt多候选发现、运动感知几何评分进行候选排序、SAM2掩码传播作为独立的像素级接触验证器，在738支视频中97.4%有效输出、77.5%在±10帧内定位准确。

研究背景与动机¶

领域现状：美式橄榄球练习产生大量视频，但生物力学分析关注的接触动作仅占每段视频的极短窗口。需要精确到帧的首触点(FPOC)定位来锚定姿态测量和动力学分析。
现有痛点：(1) 场景极其复杂——手持/场边相机、运动模糊、多名装备相似的运动员、训练假人遮挡；(2) 标准边界框无法区分"检测到但未接触"和"接触但被遮挡"；(3) 现有动作定位方法(BMN/ActionFormer等)需要帧级标注，而练习视频无此标注；(4) 零样本方法(T3AL/ZEETAD)输出时间段粒度不够（30fps下半秒=15帧，无法确定是接触前还是接触后姿态）。
核心洞察：检测置信度和物理接触是两个独立量——高置信度检测不等于接触发生。需要将"候选发现"和"接触确认"解耦。
核心idea：用Grounding DINO发现候选对(player-dummy)→运动方向评分排序→SAM2掩码传播提供像素级接触验证（掩码交集=接触证据）→双阶段后退精化修正时间偏差。

方法详解¶

整体框架¶

四阶段管线：(1) Grounding：Grounding DINO + 层级prompt(gear/nogear/generic)×6时间位置×3阈值→穷举收集所有候选player-dummy对；(2) Validation：时间一致性验证(14邻帧匹配)+位移幅度+方向余弦评分→候选排序；(3) Refinement：后退精化(顺序回退+二分搜索)找到FFBO(首个双对象可见帧)；(4) Contact Verification：SAM2从FFBO开始传播player和dummy掩码→首个掩码交集帧=FPOC。

关键设计¶

层级Prompt + 穷举候选收集:
- 功能：多粒度描述应对装备/姿态变化
- 三级prompt：\(P_{gear}\)(带头盔向前冲刺的描述)→\(P_{nogear}\)(无装备描述)→\(P_{generic}\)(泛化描述)
- 六个时间采样位置×每个位置的偏移窗口×三个递减置信度阈值→全部有效候选收集而非首次成功即返回
- 设计动机：grounding质量和接触时间不单调相关——中等接触时检测最强但可能跟踪错误运动员，早帧弱检测可能才是正确起点
运动感知几何评分:
- 功能：区分主动冲撞者和旁观者
- 位移分数：\(s_{disp} = \min(\frac{\max_{m \in \mathcal{Q}} \|c_m - c_0\|}{200}, 1)\)→移动越多分数越高
- 方向分数：运动向量与player→dummy方向向量的余弦相似度→方向对齐越好分数越高
- 综合：\(s_{dir} = 0.50 \cdot \cos_{sim} + 0.50 \cdot s_{disp}\)→排除站着不动的同队者
- 设计动机：时间一致性仅验证持续存在，但不区分主动/被动。方向+位移评分利用了"冲撞必须移动且方向朝向假人"的物理先验
SAM2作为接触验证器（最核心创新）:
- 功能：将SAM2从"分割后端"重新定义为"接触检测信号"
- 核心思路：从FFBO帧分别prompt SAM2传播player和dummy掩码→当两掩码首次产生像素交集时=FPOC
- 与检测置信度完全解耦→掩码交集是几何接触的直接证据
- 如果无交集→尝试下一个排名候选→多候选fallback直到掩码交集确认接触
- 设计动机：边界框即使重叠也不代表物理接触（框可能含背景），即使不重叠也可能接触（遮挡），而像素掩码的交集直接对应物理重叠
双阶段后退精化:
- 功能：修正grounding偏向中等接触帧的时间偏差
- 顺序后退：从grounding帧逐帧回退直到检测丢失→找到事件起始
- 二分搜索：在起始和grounding帧之间二分→精确FFBO
- 设计动机：Grounding在mid-contact时最强（双对象最显著）→系统性偏晚→需要后退纠正

关键特点¶

完全无训练：无任务特定微调、无标注数据
多候选fallback策略：不依赖单次检测→持续尝试直到SAM2确认接触

实验关键数据¶

主实验（738支练习视频）¶

指标	数值
有效输出率	97.4%
±10帧定位准确率	77.5%
±20帧定位准确率	82.7%

消融实验¶

配置	±10帧准确率
无运动评分(仅置信度排序)	下降显著
无SAM2验证(仅框重叠)	下降更多
无后退精化(直接用grounding帧)	系统性偏晚
无层级prompt(单级)	候选召回下降
完整GRAZE	77.5%

关键发现¶

SAM2验证是最关键组件——框重叠判断接触的假阳性极高
运动方向评分有效排除了旁观者（95%+的错误候选被排除）
穷举候选收集(不首次成功即返回)比贪心策略高~5%准确率
后退精化平均将FPOC向前纠正了4.8帧

亮点与洞察¶

"SAM2作为接触验证器"的理念创新：将分割模型从被动的"给我掩码"重新定义为主动的"告诉我两个物体何时首次接触"——掩码交集是检测置信度无法提供的物理接触证据。这一理念可推广到任何需要判断物体交互时间的场景（碰撞检测、交接动作分析等）
候选发现与接触确认的解耦：传统方法将检测置信度等同于事件发生——GRAZE明确分离了"找到可能的player-dummy对"和"确认它们何时接触"两步，各自用最适合的工具
零样本+无训练的实用性：练习视频的装备/场地/拍摄条件跨session差异巨大→训练特定检测器不现实。GRAZE的纯提示+掩码方案自然泛化
运动方向评分的物理先验注入：利用"冲撞必须朝向目标方向移动"这一简单物理直觉→无学习的规则就能有效排除绝大多数错误候选

局限与展望¶

当前仅针对player-dummy练习场景——真实比赛中player-player接触更复杂（双方都在动）
SAM2掩码传播在极端运动模糊和遮挡时可能失败
定位精度(±10帧≈0.33秒)对某些生物力学分析仍嫌不够——更高帧率视频可能提升精度
层级prompt的设计依赖对运动装备的先验知识——迁移到其他运动项目需要重新设计prompt
可探索将光流信息集成到接触确认中（除掩码交集外增加运动一致性验证）

评分¶

新颖性: ⭐⭐⭐⭐⭐ SAM2作为接触验证器的理念全新，候选发现-接触确认的解耦设计优雅
实验充分度: ⭐⭐⭐⭐ 738支真实视频、详细消融、多粒度精度评估
写作质量: ⭐⭐⭐⭐ 问题动机清晰，管线每步的设计理由充分
价值: ⭐⭐⭐⭐ 对运动生物力学和基础模型组合的零样本应用有实际贡献

GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

检测分类¶

实验关键数据¶

主实验（738个橄榄球练习视频）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

GRAZE: Grounded Refinement and Motion-Aware Zero-Shot Event Localization¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

关键特点¶

实验关键数据¶

主实验（738支练习视频）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶