DanmakuTPPBench: A Multi-modal Benchmark for Temporal Point Process Modeling and Understanding¶

基本信息¶

arXiv: 2505.18411
会议: NeurIPS 2025
作者: Yue Jiang, Jichu Li, Yang Liu, Dingkang Yang, Feng Zhou, Quyu Kong
代码: https://github.com/FRENKIE-CHIANG/DanmakuTPPBench
领域: 多模态时序建模 / Temporal Point Process / LLM Benchmark

一句话总结¶

论文提出首个面向多模态 Temporal Point Process 的系统 benchmark：一方面构建来自 Bilibili 弹幕视频的时间戳-文本-视频联合事件数据集 DanmakuTPP-Events，另一方面通过多智能体 LLM/MLLM pipeline 构建复杂时序推理问答集 DanmakuTPP-QA，系统揭示当前 TPP 模型与 MLLM 在多模态事件动态理解上的明显短板。

背景与动机¶

传统 TPP 研究主要处理单模态事件序列，例如纯时间戳或附带简单 mark 的离散事件流，但现实世界中的事件通常同时具备： - 时间属性； - 文本语义； - 视觉上下文； - 多主体交互和因果依赖。

现有数据集过于单一，导致模型开发与评测严重脱离 LLM/MLLM 时代的真实需求。作者的核心动机是：把 TPP 从统计建模问题推进到多模态理解与推理问题。

核心问题¶

如何构建一个既能支持经典 TPP 建模，又能评估大模型在时序-文本-视觉联合推理上的综合能力的 benchmark？

方法详解¶

1. DanmakuTPP-Events¶

数据来自 Bilibili 的视频弹幕场景： - 弹幕天然带有精确时间戳； - 文本内容反映用户即时反应； - 对应视频帧提供视觉语境。

因此单个“事件”可表示为时间、文本和视频三元组，是非常自然的多模态 TPP 数据源。

2. DanmakuTPP-QA¶

作者在事件数据基础上进一步构建 QA benchmark： - 通过多智能体 LLM + MLLM pipeline 自动生成问题； - 问题面向复杂 temporal-textual-visual reasoning； - 不只测试事件预测，还测试多模态时序理解。

3. 评测覆盖面¶

论文同时评测： - 经典 TPP 模型； - 最近的多模态大模型； - 不同类型时序推理任务。

这样的设计使 benchmark 既服务传统时序社区，也服务大模型社区。

实验结论¶

根据摘要，作者发现： - 现有方法在多模态事件动态建模上存在显著性能缺口； - 经典 TPP 模型难以处理复杂视觉/语义上下文； - MLLM 虽具多模态能力，但对时间动态和事件机制的建模仍不足。

这说明“多模态理解强”不等于“多模态时间事件建模强”。

亮点¶

问题定义升级：将 TPP 从单模态统计问题扩展到多模态语言建模语境。
数据构造自然：弹幕是极少数天然同时具备时间、文本、视频三要素的数据源。
双组件设计完整：既有事件建模数据，也有高层推理 QA。
社区桥梁作用强：连接 TPP、时序推理、MLLM benchmark 三个方向。

局限性¶

数据域集中在 Bilibili 弹幕生态，跨平台泛化待验证。
自动生成 QA 可能带来一定标注噪声与风格偏差。
benchmark 强调评测，不直接提供新的强建模方法。

与相关工作的对比¶

相比传统 TPP benchmark：首次系统纳入视觉与文本联合事件语境。
相比一般 MLLM benchmark：更强调事件发生机制和时间点过程建模。
相比纯视频 QA：引入 point process 视角，更关注事件动态结构。

启发¶

可进一步探索“TPP + VLM”混合架构，显式建模事件强度函数。
对 streaming agent、视频助手、用户行为预测都很有参考价值。
这类 benchmark 也可用于检验 test-time scaling 是否真正改善时间推理，而非只提升语言流畅度。

评分¶

新颖性：★★★★★
技术深度：★★★★☆
基准价值：★★★★★
研究启发性：★★★★★