DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding¶
基本信息¶
- arXiv: 2505.18411
- 会议: NeurIPS 2025
- 作者: Yue Jiang, Jichu Li, Yang Liu, Dingkang Yang, Feng Zhou, Quyu Kong
- 代码: https://github.com/FRENKIE-CHIANG/DanmakuTPPBench
- 领域: 多模态时序建模 / Temporal Point Process / LLM Benchmark
一句话总结¶
论文提出首个面向多模态 Temporal Point Process 的系统 benchmark:一方面构建来自 Bilibili 弹幕视频的时间戳-文本-视频联合事件数据集 DanmakuTPP-Events,另一方面通过多智能体 LLM/MLLM pipeline 构建复杂时序推理问答集 DanmakuTPP-QA,系统揭示当前 TPP 模型与 MLLM 在多模态事件动态理解上的明显短板。
背景与动机¶
传统 TPP 研究主要处理单模态事件序列,例如纯时间戳或附带简单 mark 的离散事件流,但现实世界中的事件通常同时具备: - 时间属性; - 文本语义; - 视觉上下文; - 多主体交互和因果依赖。
现有数据集过于单一,导致模型开发与评测严重脱离 LLM/MLLM 时代的真实需求。作者的核心动机是:把 TPP 从统计建模问题推进到多模态理解与推理问题。
核心问题¶
如何构建一个既能支持经典 TPP 建模,又能评估大模型在时序-文本-视觉联合推理上的综合能力的 benchmark?
方法详解¶
1. DanmakuTPP-Events¶
数据来自 Bilibili 的视频弹幕场景: - 弹幕天然带有精确时间戳; - 文本内容反映用户即时反应; - 对应视频帧提供视觉语境。
因此单个“事件”可表示为时间、文本和视频三元组,是非常自然的多模态 TPP 数据源。
2. DanmakuTPP-QA¶
作者在事件数据基础上进一步构建 QA benchmark: - 通过多智能体 LLM + MLLM pipeline 自动生成问题; - 问题面向复杂 temporal-textual-visual reasoning; - 不只测试事件预测,还测试多模态时序理解。
3. 评测覆盖面¶
论文同时评测: - 经典 TPP 模型; - 最近的多模态大模型; - 不同类型时序推理任务。
这样的设计使 benchmark 既服务传统时序社区,也服务大模型社区。
实验结论¶
根据摘要,作者发现: - 现有方法在多模态事件动态建模上存在显著性能缺口; - 经典 TPP 模型难以处理复杂视觉/语义上下文; - MLLM 虽具多模态能力,但对时间动态和事件机制的建模仍不足。
这说明“多模态理解强”不等于“多模态时间事件建模强”。
亮点¶
- 问题定义升级:将 TPP 从单模态统计问题扩展到多模态语言建模语境。
- 数据构造自然:弹幕是极少数天然同时具备时间、文本、视频三要素的数据源。
- 双组件设计完整:既有事件建模数据,也有高层推理 QA。
- 社区桥梁作用强:连接 TPP、时序推理、MLLM benchmark 三个方向。
局限性¶
- 数据域集中在 Bilibili 弹幕生态,跨平台泛化待验证。
- 自动生成 QA 可能带来一定标注噪声与风格偏差。
- benchmark 强调评测,不直接提供新的强建模方法。
与相关工作的对比¶
- 相比传统 TPP benchmark:首次系统纳入视觉与文本联合事件语境。
- 相比一般 MLLM benchmark:更强调事件发生机制和时间点过程建模。
- 相比纯视频 QA:引入 point process 视角,更关注事件动态结构。
启发¶
- 可进一步探索“TPP + VLM”混合架构,显式建模事件强度函数。
- 对 streaming agent、视频助手、用户行为预测都很有参考价值。
- 这类 benchmark 也可用于检验 test-time scaling 是否真正改善时间推理,而非只提升语言流畅度。
评分¶
- 新颖性:★★★★★
- 技术深度:★★★★☆
- 基准价值:★★★★★
- 研究启发性:★★★★★