ChronoGraph: A Real-World Graph-Based Multivariate Time Series Dataset¶

会议: NEURIPS2025
arXiv: 2509.04449
代码: https://github.com/bit-ml/ChronoGraph
领域: autonomous_driving / time_series
关键词: 微服务遥测, 图时间序列, 异常检测, 真实世界数据集, 服务依赖图

一句话总结¶

提出 ChronoGraph——首个同时包含多元时间序列、显式服务依赖图和事件标签的真实世界微服务数据集（6个月 / ~700服务 / 5维指标 / 8005时间步），基准测试表明现有预测和异常检测方法在长期预测和拓扑感知方面均存在较大提升空间。

研究背景与动机¶

领域现状：大规模微服务系统中，预测各服务指标的短中期演变对于告警、自动伸缩和容量规划至关重要。现有图时序基准数据集主要来自交通（如 METR-LA）和空气质量领域，被广泛用于时序预测研究。
现有痛点：
交通和空气质量数据集是单变量的，且缺少异常标注；
工业控制数据集如 SWaT、WADI 虽有异常标签且是多变量的，但只提供过程示意图而非真正的邻接矩阵；
缺乏一个同时具备 多元时间序列 + 显式依赖图 + 异常标签 的真实数据集。
核心矛盾：没有真实的图结构可用，导致现有预测和异常检测方法要么逐序列独立处理（topology-agnostic），要么只能学习稠密的隐式图（如全连接注意力、top-k 相似度图），这些 data-driven 的图可能与真实服务拓扑不一致。
本文要解决什么？
提供一个带有真实服务依赖图的多元时序数据集，使社区能评估拓扑感知方法的效果；
标注真实运维事件，使异常检测方法可以在真实 incident 上进行评测；
基准测试揭示现有方法在哪些维度上不足。
切入角度：从大型企业级微服务平台 6 个月的生产遥测数据出发，提供了 ~700 个服务节点 + 服务间调用关系边 + 人工标注的 17 个异常段。
核心 idea 一句话：构建首个在单一数据集中同时包含多元时序、真实服务依赖图和异常标签的基准，填补图感知时序建模的数据空白。

方法详解¶

整体框架¶

ChronoGraph 不是一个新模型，而是一个 数据集 + 基准测试 贡献。整体流程为： - 数据采集：从生产微服务平台以 30 分钟间隔采集所有服务的系统级指标 - 图构建：根据实际服务间调用关系建立有向依赖图 - 异常标注：从内部事件报告中提取受影响服务和时间窗口 - 基准评测：在预测和异常检测两个任务上评估 6 类方法

关键设计¶

数据集构成：
做什么：提供一个真实世界图结构多元时序数据集
核心细节：708 个服务节点，每个服务有 5 维时间序列（CPU 使用率、内存使用率、内存工作集、网络入流量、网络出流量），共 8005 个时间步（30 分钟粒度，约 6 个月）。边表示服务间的调用依赖，每条边有 8 维特征（请求数、返回码、延迟等）
设计动机：现有数据集要么没有真正的图结构，要么没有异常标注，该数据集首次在一个数据集中同时提供三者
异常标注流程：
做什么：提供与真实运维事件对齐的异常标签
核心思路：解析人工撰写的内部事件报告(incident report)，提取受影响的服务名称和时间戳，映射到以报告时间为中心的固定长度窗口，最终得到 17 个标注异常段(labeled anomaly segments)
设计动机：传统异常检测评估使用合成异常或规则注入，本文提供的是真实故障事件标注
评测协议：
做什么：在预测和异常检测两个任务上评测多类方法
核心思路：采用 60/40 训练-测试划分。预测任务使用 MAE、MSE、MASE；异常检测使用 \(F1_K\)-AUC 和 \(ROC_K\)-AUC（克服传统 point-adjustment PA 的过度乐观问题）
设计动机：传统 F1 + PA 会严重高估异常检测性能，\(F1_K\)-AUC 在不同 K 比例下积分，给出更平衡的 segment-level 评估

基线方法覆盖¶

涵盖三大类方法： - 统计模型：Prophet（趋势+季节性分解） - 时序基础模型：Chronos-Bolt Base（零样本/少样本）、TabPFN-TS（transformer-based prior-data-fitted network） - 异常检测器：Autoencoder（重建误差）、Isolation Forest（孤立点检测）、OC-SVM（单类支持向量机） - 集成方法：Prophet + Isolation Forest + Autoencoder 的集成

实验关键数据¶

主实验——预测性能¶

模型	MAE (full 3202步)	MSE (full)	MASE (full)	MAE (前500步)	MSE (前500步)	MASE (前500步)
Prophet	0.125±0.067	0.044±0.054	7.182±11.21	0.069±0.044	0.013±0.022	3.143±3.663
Chronos	0.150±0.173	0.343±2.426	7.902±12.71	0.044±0.030	0.007±0.015	1.938±1.731
TabPFN-TS	0.125±0.125	0.089±1.172	6.205±9.315	0.109±0.061	0.026±0.031	5.082±11.01

主实验——异常检测性能¶

方法	\(F1_K\) ↑	\(ROC_K\) ↑	FP 率 ↓	FN 率 ↓	F1 ↑
Prophet	20.57	62.97	2.02	97.98	2.39
Isolation Forest	17.49	56.39	46.9	50.48	7.08
OC-SVM	14.46	54.31	22.13	77.08	5.50
Autoencoder	13.86	59.79	0.38	99.58	0.72
TabPFN-TS	12.37	54.08	0.55	99.79	0.31
Chronos	12.41	49.78	2.49	97.84	2.49
Ensemble*	16.92	60.95	0.20	99.58	0.73

关键发现¶

短期 vs 长期预测差距巨大：Chronos 在前 500 步表现最佳（MAE 0.044），但在全 3202 步上性能显著退化（MAE 0.150），说明当前方法无法维持长期预测精度。TabPFN-TS 在长短窗口间最稳定。
所有异常检测方法表现平庸：最佳 \(F1_K\) 仅 20.57（Prophet），所有方法的 FN 率都极高（Prophet 97.98%），表明 topology-agnostic 的异常检测在微服务场景下远未达到实用水平。
异常具有空间聚集性：集成模型的预测异常往往聚集在图中连接紧密的服务区域，暗示故障沿依赖图传播——这正是引入拓扑感知方法的直接动机。
基础模型限制：Chronos 和 TabPFN-TS 作为 per-series 模型无法捕获跨节点传播效应，在异常检测上表现最差。

亮点与洞察¶

首个"三合一"真实数据集：同时提供多元时序、显式依赖图、异常标签。这个组合填补了图感知时序研究的重要数据空白，之前研究者不得不在不同数据集上分别验证预测和异常检测。
\(F1_K\)-AUC 评测协议：采用跨 K 值积分的评估指标，避免了传统 point-adjustment 造成的性能过估。这一协议本身可推广到其他时序异常检测评测。
异常传播的实证证据：Figure 1 直观展示了预测异常在图中的空间聚集现象，为拓扑感知异常检测提供了有力的实证支撑。
暗数据价值：论文指出数据集可能包含未被升级为 incident 的短暂异常行为，当前被计为 false positive 但实际有运维价值——这一讨论对异常检测评测方法论有启发。

局限性 / 可改进方向¶

标注稀疏：仅 17 个异常段，且仅覆盖被上报的服务故障，大量短暂/自恢复异常未被标注，限制了异常检测评测的统计显著性。
所有基线均为 topology-agnostic：论文没有实现任何真正利用图结构的方法（如 GNN-based 预测/异常检测），因此无法量化拓扑感知带来的收益。
单一数据源：数据来自一家企业的微服务平台，泛化性未知；不同公司的微服务架构差异可能很大。
时间分辨率粗：30 分钟间隔可能遗漏快速故障的传播细节。
改进方向：
在该数据集上评测图神经网络（如 DCRNN、MTGNN、StemGNN）做空间-时间联合预测
基于依赖图做异常传播建模，如 root cause analysis
利用边特征（8 维通信数据）做 edge-conditioned 图卷积

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时包含显式服务依赖图和异常标签的真实多元时序数据集，填补重要数据空白
实验充分度: ⭐⭐⭐ 基线覆盖全面（统计模型+基础模型+经典AD），但缺少任何拓扑感知方法的评测
写作质量: ⭐⭐⭐⭐ 结构清晰，数据描述详尽，局限性讨论坦诚
价值: ⭐⭐⭐⭐ 作为 benchmark 数据集对图感知时序研究有持久价值，但需要后续工作在上面构建真正的图方法