SummDiff: Generative Modeling of Video Summarization with Diffusion¶

会议: ICCV 2025
arXiv: 2510.08458
领域: 扩散模型·视频摘要
关键词: 视频摘要, 扩散模型, 条件生成, 主观性建模, 背包问题

一句话总结¶

SummDiff 首次将扩散模型引入视频摘要任务，将其定义为条件生成问题，通过学习"好摘要"的分布来生成多种合理摘要，更好地反映视频摘要任务固有的主观性。

研究背景与动机¶

视频摘要旨在从长视频中选出关键帧以保留核心内容。然而，该任务本质上具有强主观性：不同标注者对于"好摘要"的定义各不相同。

现有方法的主要局限包括：

忽略标注多样性：大多数方法将多位标注者的帧级重要性评分取平均作为训练目标，这种回归式方法会丢失不同标注者的独立视角。例如，若一半标注者选择视频前1/4的片段，另一半选择后1/4的片段，简单平均会让两部分获得相似的中间分数，无法区分两种有效的摘要方式。

确定性输出：给定视频只能生成一个摘要，无法反映多种合理的摘要可能。

评估指标不完善：对背包（knapsack）步骤的分析不够深入，F1 分数对视频分割过度敏感。

作者提出生成式视角：将视频摘要视为条件生成任务，让模型学习好摘要的概率分布，从而通过采样生成多种合理摘要。

方法详解¶

整体框架¶

SummDiff 的流程分为三个阶段：(1) 视频编码；(2) 基于扩散的重要性评分去噪；(3) 背包优化生成最终摘要。

1. 视频编码¶

使用预训练图像编码器提取每帧特征 \(\mathbf{z}_i \in \mathbb{R}^D\)，再通过自注意力进行上下文化，得到整体视觉特征矩阵 \(\mathbf{Z} \in \mathbb{R}^{N \times D}\)。

2. 视频重要性评分去噪器（核心）¶

前向过程：对单个标注者的重要性评分 \(\mathbf{s}_0 \in [0,1]^N\) 先做 logit 变换 \(\mathbf{u}_0 = \log \frac{\mathbf{s}_0}{1-\mathbf{s}_0}\)，然后在 logit 空间添加高斯噪声：

\[\mathbf{s}_t = \sqrt{\bar{\alpha}_t} \mathbf{s}_0 + \sqrt{1-\bar{\alpha}_t} \boldsymbol{\epsilon}_t\]

Codebook 量化：将噪声化的 logit \(\mathbf{u}_t\) 通过 sigmoid 映射回 \([0,1]\)，等分为 \(K\) 段，每段对应一个可学习的 \(D\) 维嵌入。这样将标量评分 \(\mathbf{u}_t \in \mathbb{R}^N\) 映射为 \(\mathcal{C}(\mathbf{u}_t) \in \mathbb{R}^{N \times D}\)，以适配交叉注意力。

Transformer 交叉注意力去噪：量化嵌入 \(\mathcal{C}(\mathbf{u}_t)\) 作为 query，视觉特征 \(\mathbf{Z}\) 作为 key/value，利用 AdaLN-Zero 机制注入时间步和位置编码条件，避免信息混叠：

\[\mathbf{X}_1 = \mathbf{A}_1 \odot \text{softmax}(\mathbf{Q}_t' \mathbf{K}'^{\top}) \mathbf{V}' + \mathbf{Q}_t'\]

3. 训练与推理¶

训练损失：对每个标注者的独立评分进行 MSE 训练：

\[\mathcal{L}(\mathbf{s}_0, \hat{\mathbf{s}}_0) = \|\mathbf{s}_0 - \sigma(\text{FC}(f_\theta(\mathcal{C}(\mathbf{u}_t), t, \mathbf{Z})))\|_2^2\]

推理：从随机噪声 \(\mathbf{u}_T \sim \mathcal{N}(0, \mathbf{I})\) 出发，通过 DDIM 反向过程逐步去噪，最终 sigmoid 得到 \(\hat{\mathbf{s}}_0 \in (0,1)^N\)。

4. 摘要生成（KTS + 背包）¶

使用 KTS 将视频分割为语义片段，以片段均值作为重要性，通过背包动态规划在预算约束（如 \(\rho=0.15\)）下选择最优片段。

实验¶

主要结果¶

方法	SumMe τ	SumMe ρ	TVSum τ	TVSum ρ
Random	0.000	0.000	0.000	0.000
Human	0.205	0.213	0.177	0.204
CSTA	0.108	0.120	0.168	0.221
SummDiff	0.133	0.148	0.173	0.226

在 TVT 设置下，SummDiff 在 SumMe 上 τ 提升 23%，在 TVSum 上也优于所有基线。

Mr. HiSum 大规模评测¶

方法	τ	ρ	MAP@50%	MAP@15%
CSTA	0.128	0.185	63.38	30.42
SummDiff	0.175	0.238	65.44	33.83

在大规模 Mr. HiSum 数据集上（31,892 视频），SummDiff 在所有指标上大幅超越最强基线 CSTA，展现了良好的可扩展性。

消融实验¶

配置	SumMe τ	TVSum τ
无 codebook（直接用标量）	0.105	0.152
简单加法注入条件	0.118	0.161
AdaLN-Zero + codebook	0.133	0.173

codebook 量化和 AdaLN-Zero 条件注入对性能提升至关重要。

亮点与洞察¶

首次将扩散模型用于视频摘要，将确定性回归问题转化为条件生成问题，天然适配主观性任务。
对每个标注者的独立评分训练而非平均评分，有效保留了多样化的摘要视角。
Codebook 量化巧妙解决了标量评分与高维交叉注意力之间的维度匹配问题。
提出了新的评估指标，通过背包分析提供更深入的评估视角。

局限性¶

在传统小数据集（SumMe/TVSum）上的评估可靠性有限（分别仅 25/50 个视频）。
训练需要多标注者的独立评分数据，在大规模数据集（如 Mr. HiSum）上只能使用聚合标注，无法充分发挥生成式优势。
logit 空间变换需要 clip 处理，可能引入数值偏差。

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	4
写作质量	4
综合	4.0