Promoting Sustainable Web Agents: Benchmarking and Estimating Energy Consumption Through Empirical and Theoretical Analysis¶
会议: AAAI 2026
arXiv: 2511.04481
代码: GitHub
领域: LLM Agent / 可持续AI
关键词: Web Agent、能耗基准测试、碳排放估算、绿色AI、可持续部署
一句话总结¶
首次系统性地从实证基准测试和理论估算两个角度量化了 Web Agent 的能耗与碳排放,发现更高能耗并不等于更好性能,并倡导在评测中引入能效指标。
研究背景与动机¶
- 领域现状:Web Agent(如 OpenAI Operator、Google Project Mariner)正在快速发展,能够自主浏览网页、填写表单、比较价格,代表了 LLM 应用的重要前沿方向。
- 现有痛点:当前 Web Agent 研究几乎完全忽略了可持续性问题——现有 benchmark 只关注任务完成率(如 Step Success Rate),没有任何能耗指标。用户面对的只是一个简单的输入框,完全无法感知背后巨大的计算能耗。
- 核心矛盾:不同 Web Agent 的设计哲学导致能耗差距可达 10 倍以上,但这种差距对终端用户完全不透明。高能耗的 agent 并不必然带来更好的性能。
- 本文要解决什么:量化不同 Web Agent 的能耗差异,让研究社区和用户意识到这一问题的紧迫性,并推动评测标准纳入能效维度。
- 切入角度:同时从实证测量(直接基准测试开源 Agent)和理论估算(针对使用专有 LLM 的 Agent)两个互补角度进行分析。
- 核心idea:建立一套双轨评估框架——对开源 Agent 用 carbontracker 在真实 GPU 上直接测量能耗,对闭源 Agent 基于模型参数规模和 token 数量进行理论估算,从而全面揭示 Web Agent 的能耗全景。
方法详解¶
整体框架¶
提出双轨评估框架:(1) 实证基准测试 —— 在 8 种 GPU 上直接测量 5 个开源 Web Agent 的能耗;(2) 理论估算 —— 基于文献信息估算使用专有 LLM 的 Agent 能耗。两种方法互补覆盖开源和闭源 Agent。
关键设计¶
模块一:实证基准测试(Empirical Benchmarking)
- 做什么:在 Mind2Web benchmark 上运行 5 个开源 Web Agent(AutoWebGLM、MindAct、MultiUI、Synapse、Synatra),用 carbontracker 库直接测量 GPU 能耗。
- 核心思路:修改原始 Agent 代码,在执行开始和结束处插入 carbontracker 标记,捕获实际 GPU 能耗。在 8 种 NVIDIA GPU(A100、RTX 3090、H100、H200、L40S 等)上各运行 5 次取平均。
- 设计动机:直接测量是最精确的方式,但前提是 Agent 和 LLM 都开源。通过多 GPU 多次运行确保结果稳定可靠。
模块二:理论能耗估算(Theoretical Estimation)
- 做什么:对使用专有 LLM(如 GPT-4)的 Agent 进行能耗估算。核心公式为 \(E_{action} = \bar{N} \cdot e_{token}\),其中 \(\bar{N}\) 是每次动作的平均 token 数,\(e_{token}\) 是每 token 能耗。
- 核心思路:分析 Agent 论文和开源代码,确定其内部流程(输入模态、预处理步骤、LLM 调用次数),然后分别估算每个 LLM 组件的 token 数和 per-token 能耗。对 GPT-4 基于泄露的 1.8T 参数 MoE 架构,推导 FLOP 并映射到 H100 GPU 性能。
- 设计动机:闭源 Agent 无法直接测量,但仍需提供某种比较手段。用 MindAct 同时进行测量和估算,可以评估估算方法的准确性。
模块三:碳排放换算与可视化
- 做什么:将能耗乘以不同国家的碳排放因子(挪威 20g/kWh、美国 453g/kWh、澳大利亚 800g/kWh),换算为 CO₂ 排放量,并进一步转换为汽车行驶距离。
- 核心思路:使不同 Agent 的环境代价直观可感。
- 设计动机:能耗数字(kWh)对大多数人缺乏直觉,但"相当于开车 X 公里"的表述让影响易于理解。
损失函数 / 训练策略¶
本文不涉及模型训练。评估指标体系为:(1) 总能耗(kWh);(2) 每 token 能耗(kWh/token);(3) 能耗-性能比(能耗 vs. 平均 Step Success Rate);(4) CO₂ 排放(g CO₂e)。
实验关键数据¶
主实验¶
在 Nvidia H100-NVL GPU 上的综合对比:
| Agent | 平均 SSR (%) | 总能耗 (kWh) | 运行时间 (min) |
|---|---|---|---|
| AutoWebGLM | 53.53 | 0.33 | 57.0 |
| MindAct | 43.50 | 1.22 | 296.0 |
| MultiUI | 34.70 | 0.82 | 130.0 |
| Synapse | 21.67 | 1.74 | 356.0 |
| Synatra | 15.85 | 3.31 | 426.0 |
理论估算对比(Mind2Web 全量):
| Agent | 方法 | 能耗 (kWh) |
|---|---|---|
| MindAct | 基准测试 | 1.22 |
| MindAct | 理论估算 | 8.5 |
| LASER (GPT-4) | 理论估算 | 99.21 |
消融实验¶
- GPU 差异:在 8 种 GPU 上,H100-NVL 最节能;不同 GPU 间能耗差异显著但 Agent 之间的排序一致。
- 估算 vs. 实测:MindAct 理论估算值(8.5 kWh)约为实测值(1.22 kWh)的 7 倍,说明理论估算仅能提供量级参考。
- per-token 能耗:主要受 LLM 规模影响,但总能耗主要受 token 总量影响——有效的预处理(如 MindAct 的 HTML 剪枝)才是降低总能耗的关键。
关键发现¶
- 最节能的 AutoWebGLM 同时也是性能最好的——更多能耗 ≠ 更好结果。
- LASER(GPT-4)的估算能耗约为 MindAct 的 10 倍以上。
- 对于美国电网,LASER 一次跑完 Mind2Web 的碳排放相当于开车 181 公里。
- 对完全闭源的 Agent(如 Operator、Mariner),即使理论估算也无法进行。
亮点与洞察¶
- 首次系统性量化 Web Agent 能耗:填补了该领域的空白,建立了基准数据。
- 双轨方法设计巧妙:用同一个 Agent(MindAct)同时做实测和估算,验证了估算方法的局限性。
- "预处理节能"的洞见:Web Agent 能效的关键不在模型大小,而在于能否通过巧妙的预处理减少需要处理的 token 总量。
- 碳排放换算直观有力——将抽象的 kWh 转化为开车公里数。
局限性 / 可改进方向¶
- 理论估算精度有限:7 倍的高估表明当前方法仅能提供粗略量级参考。
- 完全闭源 Agent 无法评估:如 OpenAI Operator、Google Mariner 由于没有任何技术细节公开,连估算都无法进行。
- 仅评估推理能耗:未考虑有些 Agent 需要微调带来的训练能耗。
- Mind2Web 基准局限:离线 benchmark 可能无法反映真实部署中的能耗模式。
- 未涉及解决方案:主要是诊断和测量工作,没有提出降低能耗的具体技术方案。
相关工作与启发¶
- LLM 碳排放研究:GPT-3 训练产生约 550 吨 CO₂,BERT 约 0.754 吨——训练和推理的能耗都不容忽视。
- 推理能耗评估:Samsi et al. 提出的 energy-per-token 是有用的评估指标。
- Web Agent 多样性:从输入模态(HTML/accessibility tree/screenshot)到模型选择(开源/闭源),设计哲学差异直接影响能耗。
- 启发:未来的 Agent 评测应同时报告性能和能耗,就像 MLPerf 同时报告准确率和吞吐量。
评分¶
⭐⭐⭐
实用价值突出——首次为 Web Agent 领域建立了能耗基准,数据详实且实验设计合理。但作为研究贡献主要停留在测量和倡导层面,缺乏降低能耗的技术方案。理论估算方法的精度也有较大提升空间。