TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization¶

会议: ICLR 2026
arXiv: 2603.01169
代码: https://github.com/smkim37/TripleSumm
领域: 视频摘要 / 多模态
关键词: 视频摘要, 三模态融合, 自适应权重, 多尺度时序, 大规模数据集

一句话总结¶

提出 TripleSumm，通过多尺度时序块（层级滑动窗口注意力）和跨模态融合块（融合 token 自适应加权视觉/文本/音频），实现帧级模态重要性动态调整，并发布首个大规模三模态视频摘要数据集 MoSu（52678 视频），在 4 个 benchmark 上达到 SOTA。

研究背景与动机¶

领域现状：视频摘要提取关键片段代表原视频内容。现有方法主要使用视觉特征+注意力机制。

现有痛点：模态重要性帧到帧动态变化（评委说话时文本重要，机器人表演时视觉+音频重要），但现有方法用静态/模态无关的融合策略。且无大规模三模态数据集。

核心 idea：自适应帧级模态融合 + 大规模三模态 benchmark。

方法详解¶

整体框架¶

原始视频的视觉/文本/音频流 → 模态特定预训练编码器（GoogLeNet/CLIP + RoBERTa + AST）→ 线性投影+LayerNorm 到共同维度 D → 逐帧聚合为融合 token \(\mathbf{E}^f\) → 交替堆叠 L 层 Multi-scale Temporal block (MST) + Cross-modal Fusion block (CMF) → 预测头输出帧级重要性分数 \(\hat{S} \in [0,1]\) → 选择高分帧组成摘要。

关键设计¶

多尺度时序块（MST）：
- 使用窗口自注意力（WSA），窗口大小 \(w\) 逐层增大（初始层小窗口捕局部依赖，后续层大窗口捕长程依赖）
- 复杂度从全注意力的 \(O(N^2)\) 降至 \(O(w \cdot N)\)
- 跨模态共享参数——同一 WSA 对四种 token（融合/视觉/文本/音频）使用相同参数
- 设计动机：视频帧的时序变化（如场景切换、节奏变化）是模态无关的，共享参数可高效捕获通用时序模式
跨模态融合块（CMF）：
- 融合 token \(\mathbf{h}^f_i\) 作为 query，三个模态 token \(\mathbf{h}^{\{v,t,a\}}_i\) 作为 key/value
- 交叉注意力实现帧级自适应加权——每个时间步独立决定关注哪个模态
- 设计动机：避免传统方法中的模态偏向（如总是以视觉为 query），融合 token 作为中立锚点公平对待三模态
融合 token 设计：
- \(\mathbf{e}^f_i = \text{Agg}(\mathbf{e}^v_i, \mathbf{e}^t_i, \mathbf{e}^a_i)\)，聚合函数可为平均或 MLP
- 加入时序位置编码（TPE）+ 可学习模态嵌入（LME）区分时间步和模态来源
- 关键：融合 token 在 CMF 中被更新后携带了最相关模态的信息，但不直接修改各模态 token
MoSu 数据集构建：
- 从 YouTube-8M 筛选：(1) 英语字幕和音轨可用；(2) >50000 观看量以获取 "Most Replayed" 统计；(3) ≥120 秒确保足够长
- 最终 52678 个视频，涵盖视觉+文本+音频三模态特征
- 标注来自 YouTube "Most Replayed" 热力图——每个视频至少 50000 名观众的集体行为反馈

损失函数 / 训练策略¶

L2 回归损失：\(\mathcal{L} = \|S - \hat{S}\|_2^2\)，预测帧级重要性分数。最终摘要通过选择最大化预测分数的时序连贯片段生成。

实验关键数据¶

主实验¶

基准	指标	TripleSumm	之前SOTA	提升
MoSu	Kendall τ	0.145	0.107 (CFSum)	+35.5%
Mr.HiSum	Kendall τ	0.105	0.089	+18.0%
SumMe	F1	52.3	50.1	+2.2
TVSum	F1	63.7	61.5	+2.2

消融实验¶

配置	MoSu τ	说明
Full TripleSumm	0.145	完整
仅视觉	0.091	大幅退化
视觉+文本	0.128	音频贡献明显
w/o MST	0.121	多尺度重要
w/o CMF	0.118	自适应融合关键

关键发现¶

缺失模态时 TripleSumm 鲁棒退化——动态依赖可用模态，不会因单模态缺失而崩溃
定性分析显示融合 token 在不同帧自适应地关注不同模态（如评委发言帧→文本权重高，音乐表演帧→音频权重高）
仅视觉特征的模型在 MoSu 上 τ=0.091，加入文本后提升至 0.128，再加音频到 0.145——每个模态都有独立贡献
MST 的多尺度设计对长视频特别重要——单一窗口大小的模型在 MoSu 上 τ 下降约 16%
参数效率高：TripleSumm 的参数量与仅视觉的 PGL-SUM 相当，但利用了三倍的信息源

亮点与洞察¶

融合 token 作为跨模态交互的"中立锚点"是关键创新——避免了传统方法中以视觉为 query 的模态偏向问题
MST 的层级窗口设计让模型从局部到全局逐步建立时序理解——这对长视频（>2分钟）尤其重要
三模态的加入不仅提升了性能，更提升了鲁棒性——缺失任何单一模态时性能退化可控
MoSu 的 "Most Replayed" 标注方案是务实的选择——利用集体观看行为作为帧重要性的免费代理标注

局限与展望¶

MoSu 基于 YouTube "Most Replayed"，可能偏向娱乐性内容，教育/专业视频的覆盖不足
融合 token 的初始化使用简单平均聚合，更复杂的初始化（如门控）可能进一步提升
仅使用预训练编码器的冻结特征，端到端微调编码器可能释放更多潜力
WSA 窗口大小按固定 schedule 增大，自适应调整窗口大小可能更优
未探索 LLM-based 摘要方法（如 VideoLLM）的对比

评分¶

新颖性: ⭐⭐⭐⭐ 自适应三模态融合 + 大规模数据集，方法和资源双贡献
实验充分度: ⭐⭐⭐⭐⭐ 4 benchmark + 消融 + 定性分析 + 缺失模态鲁棒性测试
写作质量: ⭐⭐⭐⭐ 结构清晰，图示直观
价值: ⭐⭐⭐⭐⭐ MoSu 数据集和三模态融合方法都具有持久价值