DCcluster-Opt: Benchmarking Dynamic Multi-Objective Optimization for Geo-Distributed Data Center Workloads¶
会议: NeurIPS 2025
arXiv: 2511.00117
代码: GitHub (dc-rl)
领域: 强化学习 / 可持续计算
关键词: 数据中心优化, 多目标优化, 强化学习, 碳排放, 工作负载调度
一句话总结¶
提出 DCcluster-Opt,一个面向地理分布式数据中心的开源高保真仿真基准平台,融合真实世界数据集(碳强度、电价、天气等)和物理模型,支持动态多目标负载调度的强化学习研究。
研究背景与动机¶
大规模 AI 的快速发展带来了数据中心能耗和碳排放的急剧增长。在全球分布式数据中心集群中进行智能负载管理至关重要,但研究进展受限于缺乏合适的基准。
现有基准的不足:
环境因素过于简化:未能真实地捕捉时变的电网碳强度、电力价格、天气变化等因素的交互影响
数据中心物理模型缺失:忽视了 CPU、GPU、内存、HVAC(暖通空调)能耗等详细的数据中心物理特性
地理分布网络动态缺失:未建模延迟、传输成本等跨数据中心的网络动态
缺乏可复现性:部分工作使用私有数据或不可复现的实验设置
DCcluster-Opt 的定位:
作为前作 SustainDC(NeurIPS 2024 Datasets and Benchmarks)的演进版本,DCcluster-Opt 从单数据中心扩展到地理分布式集群,新增了顶层协调 agent 的任务分配问题、跨区域网络建模、热回收等高级组件。
方法详解¶
整体框架¶
DCcluster-Opt 构建了一个由多个地理分布式数据中心组成的仿真环境,核心是一个层次化的调度问题:
- 顶层协调 Agent:接收全局状态(任务队列、各 DC 负载、碳强度、电价等),决定将到达的任务分配、推迟或重分配到哪个数据中心
- 数据中心级 Agent:在每个 DC 内部管理 HVAC 冷却优化、电池充放电策略等
- 任务特征:每个任务携带资源需求(CPU/GPU/内存)和服务级别协议(SLA)要求
关键设计¶
1. 高保真数据中心物理模型
每个数据中心模拟以下组件: - IT 系统:CPU/GPU 功耗模型(利用率-功耗比),服务器机架热模型 - HVAC 系统:CRAC(计算机房空调)、冷水机组(COP 模型)、冷却塔、水泵能耗 - 电池系统:充放电循环、SoC(充电状态)管理 - 热回收系统:利用服务器废热供暖等
2. 真实世界数据集集成
覆盖 20 个全球区域: - AI 工作负载 trace:来自 Alibaba 和 Google 集群数据 - 电网碳强度:来自 EIA(美国能源信息署),按区域和时间变化 - 电力市场价格:实时电价数据 - 天气数据:EnergyPlus .epw 格式的逐小时天气(温度、湿度等) - 云传输成本:跨区域数据传输定价 - 网络延迟:经验测量的跨区域延迟参数
3. 模块化奖励系统
支持多目标权重的灵活配置: - 碳排放:最小化总 CO₂ 排放 - 能源成本:最小化整体电费 - SLA 违规:确保任务在截止时间前完成 - 水资源消耗:最小化冷却用水量
奖励函数可自定义权重,支持研究不同目标之间的 Pareto 权衡。
4. Gymnasium API 集成
环境实现标准 Gymnasium Env 接口: - 观测空间:包含时间编码、碳强度预测、各 DC 负载状态、待处理任务队列等 - 动作空间:任务分配决策(分配到特定 DC / 推迟 / 拒绝) - 支持单 agent 和多 agent 模式
损失函数 / 训练策略¶
作为基准环境,DCcluster-Opt 提供多种 baseline controller:
- Rule-based:基于碳强度的贪心分配、负载均衡等启发式策略
- RL 方法:PPO、IPPO、MAPPO、HAPPO 等多种强化学习算法
- Random:随机分配基线
实验关键数据¶
主实验¶
Table 1:不同调度策略在 5 数据中心集群的性能对比
| 方法 | 碳排放 (kg CO₂) ↓ | 能源成本 ($) ↓ | SLA 违规率 (%) ↓ | 水用量 (m³) ↓ |
|---|---|---|---|---|
| Random | 1250 | 8500 | 12.3 | 450 |
| Greedy-Carbon | 980 | 9200 | 8.5 | 380 |
| Load-Balance | 1150 | 7800 | 5.2 | 420 |
| PPO | 920 | 7600 | 6.1 | 360 |
| HAPPO | 870 | 7200 | 4.8 | 340 |
| MAPPO | 890 | 7400 | 4.5 | 355 |
多 Agent RL 方法(HAPPO、MAPPO)在多数目标上优于规则策略和单 Agent RL,但不同策略在碳排放和 SLA 之间展现出不同的权衡特点。
Table 2:不同区域数量配置下的可扩展性
| 集群规模 | 训练时间 (h) | 碳减排 (%) vs Random | SLA 改善 (%) |
|---|---|---|---|
| 3 DCs | 2.5 | 22.4 | 48.5 |
| 5 DCs | 5.8 | 30.4 | 56.2 |
| 10 DCs | 14.2 | 35.1 | 61.8 |
| 20 DCs | 38.6 | 38.7 | 65.3 |
随着集群规模增大,RL agent 可利用更多的跨区域碳强度差异来优化调度,但训练成本也线性增长。
消融实验¶
环境组件贡献分析
| 配置 | HAPPO 碳减排 (%) |
|---|---|
| 完整环境 | 30.4 |
| 无天气变化 | 26.1 |
| 无碳强度预测 | 22.8 |
| 无网络延迟建模 | 28.9 |
| 无热回收 | 29.7 |
碳强度预测信息对 RL agent 性能影响最大(-7.6%),凸显了环境时变信息接入的重要性。
关键发现¶
- 地理多样性是关键:更多区域的碳强度差异为 RL 提供了更多调度空间,20 DC 配置比 3 DC 多减排约 16%
- 碳 vs. SLA 权衡:最小化碳排放的策略可能推迟任务到低碳窗口,导致 SLA 违规增加
- 规则策略有竞争力:在某些单目标场景下,精心设计的贪心策略接近 RL 性能
- 预测信息至关重要:前瞻性的碳强度和电价预测显著提升 RL agent 表现
亮点与洞察¶
- 真实性与可复现性兼备:结合多源真实数据和物理模型,同时完全开源
- 从单 DC 到集群的扩展:相比前作 SustainDC 增加了跨 DC 调度维度,问题更具挑战性
- 模块化设计:奖励函数、数据中心配置、区域数量都可灵活配置
- 标准接口:Gymnasium API 使得各种 RL 算法可以即插即用
局限与展望¶
- 仿真-真实差距:虽然使用物理模型和真实数据,但仿真终究与真实数据中心运营有偏差
- 网络模型简化:当前的延迟和传输成本模型相对简单,未考虑动态路由和拥塞
- 任务模型可扩展:当前任务模型假设相对简单的资源需求,未深入建模 GPU 集群训练等复杂负载
- 安全约束:实际数据中心运营的安全约束(如温度硬约束、电力冗余)建模可进一步加强
- 大语言模型负载:随着 LLM 推理需求增长,专门针对 LLM serving 的负载模式有待纳入
相关工作与启发¶
- SustainDC (Naug et al. 2024):本文的前身,单 DC 多 agent 基准
- CarbonExplorer (Facebook):碳足迹分析工具
- DCRL-Green:数据中心绿色控制的早期版本
- EnergyPlus:建筑能模拟器,为天气和热模型提供基础
- Gymnasium/PettingZoo:标准化 RL 环境接口
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 3 — 是 SustainDC 的演进扩展,创新增量适中 |
| 技术质量 | 4 — 高保真仿真 + 完善的工程实现 |
| 实验充分性 | 4 — 多策略、多规模的系统性评估 |
| 写作质量 | 4 — 基准论文结构清晰 |
| 影响力 | 4 — 为可持续计算研究提供重要基准 |
相关论文¶
- [ICML 2025] Graph-Supported Dynamic Algorithm Configuration for Multi-Objective Combinatorial Optimization
- [NeurIPS 2025] Thompson Sampling for Multi-Objective Linear Contextual Bandit
- [NeurIPS 2025] Sequential Multi-Agent Dynamic Algorithm Configuration
- [NeurIPS 2025] Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm
- [NeurIPS 2025] Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment