Generic Event Boundary Detection via Denoising Diffusion (DiffGEBD)¶
会议: ICCV 2025
arXiv: 2508.12084
代码: https://cvlab.postech.ac.kr/research/DiffGEBD
领域: 视频理解 / 事件边界检测
关键词: 通用事件边界检测, 扩散模型, Classifier-Free Guidance, 多样性评估, 时序自相似性
一句话总结¶
DiffGEBD 首次将扩散模型引入通用事件边界检测(GEBD),通过将边界预测建模为从随机噪声到合理边界分布的去噪过程,利用 Classifier-Free Guidance 控制预测多样性,并提出了对称 F1 和 Diversity Score 两项新评估指标来衡量多预测场景下的质量与多样性。
研究背景与动机¶
领域现状:通用事件边界检测(GEBD)旨在将视频自然地分割为有意义的事件片段,识别其转折点。与传统的动作识别和时序动作检测不同,GEBD 关注的是类别无关的通用事件边界。Kinetics-GEBD 是该任务的标准基准数据集,每个视频提供多个标注者的标注。
现有痛点: - GEBD 中事件边界的定义具有天然的主观性和多样性——不同标注者对同一视频的边界认知存在差异 - 然而现有方法(UBoCo、DDM-Net、LCVS、SC-Transformer、BasicGEBD、EfficientGEBD 等)全部采用确定性模型,只能为每个视频输出单一预测结果,忽略了边界的多样性 - 传统 F1 评估指标只衡量单一预测与多个标注之间的匹配,无法处理"多对多"对齐的评估场景
核心矛盾:GEBD 的 ground truth 本身就是多样的(多个标注者给出不同答案),但模型只能给出确定性的单一答案。这种"多样标注 vs. 确定性预测"的不对等使得模型无法真正反映人类判断的变异性。
本文切入角度:扩散模型天然适合这一挑战——通过改变初始噪声就能采样出不同的输出。DiffGEBD 将 GEBD 重新定义为生成式问题:给定视频条件特征,从随机噪声中迭代去噪出合理的事件边界。
方法详解¶
整体框架¶
DiffGEBD 包含三个核心组件:
- Backbone(ResNet-50):从输入视频 \(\bm{V} \in \mathbb{R}^{L \times H \times W \times 3}\) 提取视觉特征 \(\bm{F} \in \mathbb{R}^{L \times D}\)
- 时序自相似性编码器(Encoder \(f\)):通过滑动窗口时序自相似性模块捕获相邻帧之间的动态变化,生成时序嵌入 \(\bm{E} \in \mathbb{R}^{L \times C}\)
- 去噪解码器(Decoder \(h\)):基于 Transformer Encoder 层,将含噪的边界标签 \(\bm{y}_t\) 在时序嵌入 \(\bm{E}\) 的条件下去噪为边界预测
训练时:随机采样扩散时间步 \(t\),向 ground-truth 边界标签 \(\bm{y}_0 \in \{0,1\}^L\) 添加高斯噪声得到 \(\bm{y}_t\),解码器学习从 \(\bm{y}_t\) 重建 \(\bm{y}_0\)。每个 epoch 内轮换使用不同标注者的标注。
推理时:从随机高斯噪声 \(\hat{\bm{y}}_T\) 出发,通过 DDIM 采样逐步去噪至 \(\hat{\bm{y}}_0\)。通过初始化不同的随机噪声,可以用同一模型生成多个不同的合理预测。
关键设计¶
-
时序自相似性编码器:
- 功能:用 1D 卷积 + 滑动窗口时序自相似性矩阵 + FCN + 2D 池化处理视觉特征
- 核心思路:自相似性矩阵衡量临近帧之间的语义一致性变化,边界位置对应不一致性高峰
- 设计动机:相比直接使用 backbone 输出的视觉特征 \(\bm{F}\),时序自相似性特征 \(\bm{E}\) 能更好地捕捉细粒度帧间变化。消融实验(Table 2)证实:用 \(\bm{F}\) 做条件时 F1\(_{\text{sym}}\) 仅 68.5,用 \(\bm{E}\) 则为 74.0
-
Classifier-Free Guidance (CFG):
- 训练:以概率 \(p=0.1\) 随机将条件特征 \(\bm{E}\) 替换为零矩阵,联合训练条件/无条件两种模式
- 推理:\(\hat{\bm{y}}_t = (1+w)\hat{\bm{y}}_t^c - w\hat{\bm{y}}_t^u\),其中 \(w\) 是引导权重
- 大 \(w\) → 输出更确定性、更依赖视觉条件;小 \(w\) → 更多样化的预测
- 最优 \(w=0.6\)(最大化 F1\(_{\text{sym}}\)),确定性评估时用 \(w=4.0\)
-
多样性感知评估指标:
- 对称 F1(F1\(_{\text{sym}}\)):结合 Pred-to-GT 对齐分数(每个预测与最优 GT 匹配)和 GT-to-Pred 对齐分数(每个 GT 是否被某个预测覆盖),取调和平均
- Diversity Score:计算 \(N_P\) 个预测之间的平均两两不相似度 \(\frac{1}{N_P^2}\sum_{i,j}(1 - \text{F1}(\hat{Y}_i, \hat{Y}_j))\)
损失函数/训练策略¶
- 损失函数:均方误差 \(\mathcal{L} = \frac{1}{L}\sum_{l=1}^{L}(\bm{y}_{0,l} - \hat{\bm{y}}_{t,l})^2\)
- 视频统一采样至 100 帧
- Backbone:ImageNet 预训练 ResNet-50(冻结)
- 编码器:BasicGEBD-L4;解码器:6 层 Transformer
- 扩散步数设为 \(T=1000\)(训练),DDIM 采样 32 步(推理)
- CFG 丢弃概率 \(p=0.1\)
- Kinetics-GEBD 每视频 5 个标注,按 F1 一致性分数选取前 4 个
实验关键数据¶
多样性感知评估(核心实验)¶
Kinetics-GEBD 数据集,每个模型生成 \(N_P=5\) 个预测:
| 方法 | F1\(_{\text{sym}}\) | F1\(_{\text{p2g}}\) | F1\(_{\text{g2p}}\) | Diversity |
|---|---|---|---|---|
| Temporal Perceiver | 69.4 | 72.2 | 67.4 | 14.6 |
| SC-Transformer | 72.9 | 74.9 | 71.6 | 18.9 |
| BasicGEBD | 72.2 | 74.5 | 70.6 | 18.6 |
| EfficientGEBD | 72.6 | 76.0 | 70.2 | 14.9 |
| DiffGEBD | 74.0 | 75.6 | 72.9 | 20.4 |
注:其他方法为确定性模型,通过 5 次随机初始化训练获得多个预测;DiffGEBD 的多样预测来自同一模型的不同初始噪声。
传统评估¶
| 方法 | Kinetics-GEBD F1@0.05 | TAPOS F1@0.05 |
|---|---|---|
| EfficientGEBD | 78.3 | 63.1 |
| DyBDet | 79.6 | 62.5 |
| DiffGEBD (\(w=4.0\)) | 78.4 | 65.8 |
消融实验¶
条件特征的影响:\(\bm{E}\)(时序自相似性)vs. \(\bm{F}\)(原始视觉特征)→ F1\(_{\text{sym}}\) 74.0 vs. 68.5
推理步数:1 步 → F1\(_{\text{sym}}\) 64.0;2 步 → 72.3;8 步 → 73.7;32 步 → 74.0(最佳)
标注数量:1→4 个标注,性能持续提升;使用全部 5 个时因低一致性标注引入噪声而略降
CFG 权重 \(w\):\(w=0.6\) 时 F1\(_{\text{sym}}\) 最高;\(w\) 增大→F1\(_{\text{p2g}}\) 先升后降,Diversity 持续下降
关键发现¶
- DiffGEBD 在 F1\(_{\text{sym}}\)、F1\(_{\text{g2p}}\) 和 Diversity 三项指标上均 SOTA
- EfficientGEBD 虽然 F1\(_{\text{p2g}}\) 最高,但其 diversity 极低(14.9),说明预测精确但缺乏多样性
- 高 diversity 不必然带来高 F1\(_{\text{g2p}}\)——多样性必须伴随合理性才有意义
- TAPOS 上 DiffGEBD 大幅超越 SOTA(65.8 vs. 63.1),说明生成式方法对更困难的数据集优势更明显
- 扩散模型只需一次训练,无需像确定性模型那样需要多次训练来获得多预测
亮点与洞察¶
- 问题建模角度新颖:将 GEBD 从"判断哪些位置是边界"的判别问题转化为"从噪声中生成合理的边界分布"的生成问题。这个视角转换非常巧妙,充分利用了扩散模型的生成多样性来匹配 GEBD 任务中的标注多样性。
- 评估指标设计严谨:对称 F1 + Diversity Score 组成的评估协议填补了多预测场景的评估空白。对称 F1 同时考虑 Pred→GT 和 GT→Pred 两个方向,比单向 F1 更公平。
- CFG 用法出色:原本用于图像生成中平衡质量与多样性的 CFG 被精准迁移到边界检测中,且一个连续参数 \(w\) 就能在"确定性预测"和"多样性预测"之间平滑切换。
- 实验设计公平:将确定性方法的多次训练结果与 DiffGEBD 的单模型多次采样进行对比,同时展示传统评估结果,确保了比较的完整性。
局限与展望¶
- 推理效率:DDIM 需要 32 步迭代去噪,推理速度慢于确定性方法。如果需要实时边界检测场景,这是瓶颈。
- Kinetics-GEBD 传统 F1 未超 SOTA:DyBDet(79.6)仍优于 DiffGEBD(78.4),说明生成式方法在单一最佳预测场景下仍有提升空间。
- 模型泛化性:实验只在 Kinetics-GEBD 和 TAPOS 上评估,缺乏跨域泛化性验证。
- 多样性的可控性粒度较粗:CFG 权重 \(w\) 是全局参数,无法分区域控制多样性程度。一些明确的边界可能不需要多样性,而不确定区域可能需要更高多样性。
- 扩散模型的计算成本:相比轻量级的确定性模型(如 EfficientGEBD),扩散框架需要编码器 + 解码器 + 多步推理,计算 overhead 显然更高。
亮点与洞察¶
局限与展望¶
相关工作与启发¶
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [ACL 2026] Purging the Gray Zone: Latent-Geometric Denoising for Precise Knowledge Boundary Awareness
- [ICCV 2025] Low-Light Image Enhancement using Event-Based Illumination Estimation (RetinEV)
- [ICCV 2025] UniPhys: Unified Planner and Controller with Diffusion for Flexible Physics-Based Character Control
- [ECCV 2024] EDformer: Transformer-Based Event Denoising Across Varied Noise Levels
- [ICCV 2025] PRE-Mamba: A 4D State Space Model for Ultra-High-Frequent Event Camera Deraining