SummDiff: Generative Modeling of Video Summarization with Diffusion¶
会议: ICCV 2025
arXiv: 2510.08458
领域: 扩散模型·视频摘要
关键词: 视频摘要, 扩散模型, 条件生成, 主观性建模, 背包问题
一句话总结¶
SummDiff 首次将扩散模型引入视频摘要任务,将其定义为条件生成问题,通过学习"好摘要"的分布来生成多种合理摘要,更好地反映视频摘要任务固有的主观性。
研究背景与动机¶
视频摘要旨在从长视频中选出关键帧以保留核心内容。然而,该任务本质上具有强主观性:不同标注者对于"好摘要"的定义各不相同。
现有方法的主要局限包括:
忽略标注多样性:大多数方法将多位标注者的帧级重要性评分取平均作为训练目标,这种回归式方法会丢失不同标注者的独立视角。例如,若一半标注者选择视频前1/4的片段,另一半选择后1/4的片段,简单平均会让两部分获得相似的中间分数,无法区分两种有效的摘要方式。
确定性输出:给定视频只能生成一个摘要,无法反映多种合理的摘要可能。
评估指标不完善:对背包(knapsack)步骤的分析不够深入,F1 分数对视频分割过度敏感。
作者提出生成式视角:将视频摘要视为条件生成任务,让模型学习好摘要的概率分布,从而通过采样生成多种合理摘要。
方法详解¶
整体框架¶
SummDiff 的流程分为三个阶段:(1) 视频编码;(2) 基于扩散的重要性评分去噪;(3) 背包优化生成最终摘要。
1. 视频编码¶
使用预训练图像编码器提取每帧特征 \(\mathbf{z}_i \in \mathbb{R}^D\),再通过自注意力进行上下文化,得到整体视觉特征矩阵 \(\mathbf{Z} \in \mathbb{R}^{N \times D}\)。
2. 视频重要性评分去噪器(核心)¶
前向过程:对单个标注者的重要性评分 \(\mathbf{s}_0 \in [0,1]^N\) 先做 logit 变换 \(\mathbf{u}_0 = \log \frac{\mathbf{s}_0}{1-\mathbf{s}_0}\),然后在 logit 空间添加高斯噪声:
Codebook 量化:将噪声化的 logit \(\mathbf{u}_t\) 通过 sigmoid 映射回 \([0,1]\),等分为 \(K\) 段,每段对应一个可学习的 \(D\) 维嵌入。这样将标量评分 \(\mathbf{u}_t \in \mathbb{R}^N\) 映射为 \(\mathcal{C}(\mathbf{u}_t) \in \mathbb{R}^{N \times D}\),以适配交叉注意力。
Transformer 交叉注意力去噪:量化嵌入 \(\mathcal{C}(\mathbf{u}_t)\) 作为 query,视觉特征 \(\mathbf{Z}\) 作为 key/value,利用 AdaLN-Zero 机制注入时间步和位置编码条件,避免信息混叠:
3. 训练与推理¶
训练损失:对每个标注者的独立评分进行 MSE 训练:
推理:从随机噪声 \(\mathbf{u}_T \sim \mathcal{N}(0, \mathbf{I})\) 出发,通过 DDIM 反向过程逐步去噪,最终 sigmoid 得到 \(\hat{\mathbf{s}}_0 \in (0,1)^N\)。
4. 摘要生成(KTS + 背包)¶
使用 KTS 将视频分割为语义片段,以片段均值作为重要性,通过背包动态规划在预算约束(如 \(\rho=0.15\))下选择最优片段。
实验¶
主要结果¶
| 方法 | SumMe τ | SumMe ρ | TVSum τ | TVSum ρ |
|---|---|---|---|---|
| Random | 0.000 | 0.000 | 0.000 | 0.000 |
| Human | 0.205 | 0.213 | 0.177 | 0.204 |
| CSTA | 0.108 | 0.120 | 0.168 | 0.221 |
| SummDiff | 0.133 | 0.148 | 0.173 | 0.226 |
在 TVT 设置下,SummDiff 在 SumMe 上 τ 提升 23%,在 TVSum 上也优于所有基线。
Mr. HiSum 大规模评测¶
| 方法 | τ | ρ | MAP@50% | MAP@15% |
|---|---|---|---|---|
| CSTA | 0.128 | 0.185 | 63.38 | 30.42 |
| SummDiff | 0.175 | 0.238 | 65.44 | 33.83 |
在大规模 Mr. HiSum 数据集上(31,892 视频),SummDiff 在所有指标上大幅超越最强基线 CSTA,展现了良好的可扩展性。
消融实验¶
| 配置 | SumMe τ | TVSum τ |
|---|---|---|
| 无 codebook(直接用标量) | 0.105 | 0.152 |
| 简单加法注入条件 | 0.118 | 0.161 |
| AdaLN-Zero + codebook | 0.133 | 0.173 |
codebook 量化和 AdaLN-Zero 条件注入对性能提升至关重要。
亮点与洞察¶
- 首次将扩散模型用于视频摘要,将确定性回归问题转化为条件生成问题,天然适配主观性任务。
- 对每个标注者的独立评分训练而非平均评分,有效保留了多样化的摘要视角。
- Codebook 量化巧妙解决了标量评分与高维交叉注意力之间的维度匹配问题。
- 提出了新的评估指标,通过背包分析提供更深入的评估视角。
局限性¶
- 在传统小数据集(SumMe/TVSum)上的评估可靠性有限(分别仅 25/50 个视频)。
- 训练需要多标注者的独立评分数据,在大规模数据集(如 Mr. HiSum)上只能使用聚合标注,无法充分发挥生成式优势。
- logit 空间变换需要 clip 处理,可能引入数值偏差。
相关工作¶
- 传统视频摘要:VASNet、PGL-SUM、CSTA 等通过回归方式预测平均评分
- 生成式方法:GAN-based 摘要(SUM-GAN)使用对抗损失但目标不同
- 扩散模型:首次在视频摘要中应用,借鉴了 DiT 的条件生成机制
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 4 |
| 实验充分性 | 4 |
| 写作质量 | 4 |
| 综合 | 4.0 |
相关论文¶
- [ICCV 2025] Generative Modeling of Shape-Dependent Self-Contact Human Poses
- [ICCV 2025] Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video
- [NeurIPS 2025] Physics-Driven Spatiotemporal Modeling for AI-Generated Video Detection
- [ICCV 2025] REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder
- [NeurIPS 2025] Diffusion Generative Modeling on Lie Group Representations