DCcluster-Opt: Benchmarking Dynamic Multi-Objective Optimization for Geo-Distributed Data Center Workloads¶

会议: NeurIPS 2025
arXiv: 2511.00117
代码: GitHub (dc-rl)
领域: 强化学习 / 可持续计算
关键词: 数据中心优化, 多目标优化, 强化学习, 碳排放, 工作负载调度

一句话总结¶

提出 DCcluster-Opt，一个面向地理分布式数据中心的开源高保真仿真基准平台，融合真实世界数据集（碳强度、电价、天气等）和物理模型，支持动态多目标负载调度的强化学习研究。

研究背景与动机¶

大规模 AI 的快速发展带来了数据中心能耗和碳排放的急剧增长。在全球分布式数据中心集群中进行智能负载管理至关重要，但研究进展受限于缺乏合适的基准。

现有基准的不足：

环境因素过于简化：未能真实地捕捉时变的电网碳强度、电力价格、天气变化等因素的交互影响

数据中心物理模型缺失：忽视了 CPU、GPU、内存、HVAC（暖通空调）能耗等详细的数据中心物理特性

地理分布网络动态缺失：未建模延迟、传输成本等跨数据中心的网络动态

缺乏可复现性：部分工作使用私有数据或不可复现的实验设置

DCcluster-Opt 的定位：

作为前作 SustainDC（NeurIPS 2024 Datasets and Benchmarks）的演进版本，DCcluster-Opt 从单数据中心扩展到地理分布式集群，新增了顶层协调 agent 的任务分配问题、跨区域网络建模、热回收等高级组件。

方法详解¶

整体框架¶

DCcluster-Opt 构建了一个由多个地理分布式数据中心组成的仿真环境，核心是一个层次化的调度问题：

顶层协调 Agent：接收全局状态（任务队列、各 DC 负载、碳强度、电价等），决定将到达的任务分配、推迟或重分配到哪个数据中心
数据中心级 Agent：在每个 DC 内部管理 HVAC 冷却优化、电池充放电策略等
任务特征：每个任务携带资源需求（CPU/GPU/内存）和服务级别协议（SLA）要求

关键设计¶

1. 高保真数据中心物理模型

每个数据中心模拟以下组件： - IT 系统：CPU/GPU 功耗模型（利用率-功耗比），服务器机架热模型 - HVAC 系统：CRAC（计算机房空调）、冷水机组（COP 模型）、冷却塔、水泵能耗 - 电池系统：充放电循环、SoC（充电状态）管理 - 热回收系统：利用服务器废热供暖等

2. 真实世界数据集集成

覆盖 20 个全球区域： - AI 工作负载 trace：来自 Alibaba 和 Google 集群数据 - 电网碳强度：来自 EIA（美国能源信息署），按区域和时间变化 - 电力市场价格：实时电价数据 - 天气数据：EnergyPlus .epw 格式的逐小时天气（温度、湿度等） - 云传输成本：跨区域数据传输定价 - 网络延迟：经验测量的跨区域延迟参数

3. 模块化奖励系统

支持多目标权重的灵活配置： - 碳排放：最小化总 CO₂ 排放 - 能源成本：最小化整体电费 - SLA 违规：确保任务在截止时间前完成 - 水资源消耗：最小化冷却用水量

奖励函数可自定义权重，支持研究不同目标之间的 Pareto 权衡。

4. Gymnasium API 集成

环境实现标准 Gymnasium Env 接口： - 观测空间：包含时间编码、碳强度预测、各 DC 负载状态、待处理任务队列等 - 动作空间：任务分配决策（分配到特定 DC / 推迟 / 拒绝） - 支持单 agent 和多 agent 模式

损失函数 / 训练策略¶

作为基准环境，DCcluster-Opt 提供多种 baseline controller：

Rule-based：基于碳强度的贪心分配、负载均衡等启发式策略
RL 方法：PPO、IPPO、MAPPO、HAPPO 等多种强化学习算法
Random：随机分配基线

实验关键数据¶

主实验¶

Table 1：不同调度策略在 5 数据中心集群的性能对比

方法	碳排放 (kg CO₂) ↓	能源成本 ($) ↓	SLA 违规率 (%) ↓	水用量 (m³) ↓
Random	1250	8500	12.3	450
Greedy-Carbon	980	9200	8.5	380
Load-Balance	1150	7800	5.2	420
PPO	920	7600	6.1	360
HAPPO	870	7200	4.8	340
MAPPO	890	7400	4.5	355

多 Agent RL 方法（HAPPO、MAPPO）在多数目标上优于规则策略和单 Agent RL，但不同策略在碳排放和 SLA 之间展现出不同的权衡特点。

Table 2：不同区域数量配置下的可扩展性

集群规模	训练时间 (h)	碳减排 (%) vs Random	SLA 改善 (%)
3 DCs	2.5	22.4	48.5
5 DCs	5.8	30.4	56.2
10 DCs	14.2	35.1	61.8
20 DCs	38.6	38.7	65.3

随着集群规模增大，RL agent 可利用更多的跨区域碳强度差异来优化调度，但训练成本也线性增长。

消融实验¶

环境组件贡献分析

配置	HAPPO 碳减排 (%)
完整环境	30.4
无天气变化	26.1
无碳强度预测	22.8
无网络延迟建模	28.9
无热回收	29.7

碳强度预测信息对 RL agent 性能影响最大（-7.6%），凸显了环境时变信息接入的重要性。

关键发现¶

地理多样性是关键：更多区域的碳强度差异为 RL 提供了更多调度空间，20 DC 配置比 3 DC 多减排约 16%
碳 vs. SLA 权衡：最小化碳排放的策略可能推迟任务到低碳窗口，导致 SLA 违规增加
规则策略有竞争力：在某些单目标场景下，精心设计的贪心策略接近 RL 性能
预测信息至关重要：前瞻性的碳强度和电价预测显著提升 RL agent 表现

亮点与洞察¶

真实性与可复现性兼备：结合多源真实数据和物理模型，同时完全开源
从单 DC 到集群的扩展：相比前作 SustainDC 增加了跨 DC 调度维度，问题更具挑战性
模块化设计：奖励函数、数据中心配置、区域数量都可灵活配置
标准接口：Gymnasium API 使得各种 RL 算法可以即插即用

局限与展望¶

仿真-真实差距：虽然使用物理模型和真实数据，但仿真终究与真实数据中心运营有偏差
网络模型简化：当前的延迟和传输成本模型相对简单，未考虑动态路由和拥塞
任务模型可扩展：当前任务模型假设相对简单的资源需求，未深入建模 GPU 集群训练等复杂负载
安全约束：实际数据中心运营的安全约束（如温度硬约束、电力冗余）建模可进一步加强
大语言模型负载：随着 LLM 推理需求增长，专门针对 LLM serving 的负载模式有待纳入

评分¶

维度	分数 (1-5)
新颖性	3 — 是 SustainDC 的演进扩展，创新增量适中
技术质量	4 — 高保真仿真 + 完善的工程实现
实验充分性	4 — 多策略、多规模的系统性评估
写作质量	4 — 基准论文结构清晰
影响力	4 — 为可持续计算研究提供重要基准