Promoting Sustainable Web Agents: Benchmarking and Estimating Energy Consumption Through Empirical and Theoretical Analysis¶

会议: AAAI 2026
arXiv: 2511.04481
代码: GitHub
领域: LLM Agent / 可持续AI
关键词: Web Agent、能耗基准测试、碳排放估算、绿色AI、可持续部署

一句话总结¶

首次系统性地从实证基准测试和理论估算两个角度量化了 Web Agent 的能耗与碳排放，发现更高能耗并不等于更好性能，并倡导在评测中引入能效指标。

研究背景与动机¶

领域现状：Web Agent（如 OpenAI Operator、Google Project Mariner）正在快速发展，能够自主浏览网页、填写表单、比较价格，代表了 LLM 应用的重要前沿方向。
现有痛点：当前 Web Agent 研究几乎完全忽略了可持续性问题——现有 benchmark 只关注任务完成率（如 Step Success Rate），没有任何能耗指标。用户面对的只是一个简单的输入框，完全无法感知背后巨大的计算能耗。
核心矛盾：不同 Web Agent 的设计哲学导致能耗差距可达 10 倍以上，但这种差距对终端用户完全不透明。高能耗的 agent 并不必然带来更好的性能。
本文要解决什么：量化不同 Web Agent 的能耗差异，让研究社区和用户意识到这一问题的紧迫性，并推动评测标准纳入能效维度。
切入角度：同时从实证测量（直接基准测试开源 Agent）和理论估算（针对使用专有 LLM 的 Agent）两个互补角度进行分析。
核心idea：建立一套双轨评估框架——对开源 Agent 用 carbontracker 在真实 GPU 上直接测量能耗，对闭源 Agent 基于模型参数规模和 token 数量进行理论估算，从而全面揭示 Web Agent 的能耗全景。

方法详解¶

整体框架¶

提出双轨评估框架：(1) 实证基准测试 —— 在 8 种 GPU 上直接测量 5 个开源 Web Agent 的能耗；(2) 理论估算 —— 基于文献信息估算使用专有 LLM 的 Agent 能耗。两种方法互补覆盖开源和闭源 Agent。

关键设计¶

模块一：实证基准测试（Empirical Benchmarking）

做什么：在 Mind2Web benchmark 上运行 5 个开源 Web Agent（AutoWebGLM、MindAct、MultiUI、Synapse、Synatra），用 carbontracker 库直接测量 GPU 能耗。
核心思路：修改原始 Agent 代码，在执行开始和结束处插入 carbontracker 标记，捕获实际 GPU 能耗。在 8 种 NVIDIA GPU（A100、RTX 3090、H100、H200、L40S 等）上各运行 5 次取平均。
设计动机：直接测量是最精确的方式，但前提是 Agent 和 LLM 都开源。通过多 GPU 多次运行确保结果稳定可靠。

模块二：理论能耗估算（Theoretical Estimation）

做什么：对使用专有 LLM（如 GPT-4）的 Agent 进行能耗估算。核心公式为 \(E_{action} = \bar{N} \cdot e_{token}\)，其中 \(\bar{N}\) 是每次动作的平均 token 数，\(e_{token}\) 是每 token 能耗。
核心思路：分析 Agent 论文和开源代码，确定其内部流程（输入模态、预处理步骤、LLM 调用次数），然后分别估算每个 LLM 组件的 token 数和 per-token 能耗。对 GPT-4 基于泄露的 1.8T 参数 MoE 架构，推导 FLOP 并映射到 H100 GPU 性能。
设计动机：闭源 Agent 无法直接测量，但仍需提供某种比较手段。用 MindAct 同时进行测量和估算，可以评估估算方法的准确性。

模块三：碳排放换算与可视化

做什么：将能耗乘以不同国家的碳排放因子（挪威 20g/kWh、美国 453g/kWh、澳大利亚 800g/kWh），换算为 CO₂ 排放量，并进一步转换为汽车行驶距离。
核心思路：使不同 Agent 的环境代价直观可感。
设计动机：能耗数字（kWh）对大多数人缺乏直觉，但"相当于开车 X 公里"的表述让影响易于理解。

损失函数 / 训练策略¶

本文不涉及模型训练。评估指标体系为：(1) 总能耗（kWh）；(2) 每 token 能耗（kWh/token）；(3) 能耗-性能比（能耗 vs. 平均 Step Success Rate）；(4) CO₂ 排放（g CO₂e）。

实验关键数据¶

主实验¶

在 Nvidia H100-NVL GPU 上的综合对比：

Agent	平均 SSR (%)	总能耗 (kWh)	运行时间 (min)
AutoWebGLM	53.53	0.33	57.0
MindAct	43.50	1.22	296.0
MultiUI	34.70	0.82	130.0
Synapse	21.67	1.74	356.0
Synatra	15.85	3.31	426.0

理论估算对比（Mind2Web 全量）：

Agent	方法	能耗 (kWh)
MindAct	基准测试	1.22
MindAct	理论估算	8.5
LASER (GPT-4)	理论估算	99.21

消融实验¶

GPU 差异：在 8 种 GPU 上，H100-NVL 最节能；不同 GPU 间能耗差异显著但 Agent 之间的排序一致。
估算 vs. 实测：MindAct 理论估算值（8.5 kWh）约为实测值（1.22 kWh）的 7 倍，说明理论估算仅能提供量级参考。
per-token 能耗：主要受 LLM 规模影响，但总能耗主要受 token 总量影响——有效的预处理（如 MindAct 的 HTML 剪枝）才是降低总能耗的关键。

关键发现¶

最节能的 AutoWebGLM 同时也是性能最好的——更多能耗 ≠ 更好结果。
LASER（GPT-4）的估算能耗约为 MindAct 的 10 倍以上。
对于美国电网，LASER 一次跑完 Mind2Web 的碳排放相当于开车 181 公里。
对完全闭源的 Agent（如 Operator、Mariner），即使理论估算也无法进行。

亮点与洞察¶

首次系统性量化 Web Agent 能耗：填补了该领域的空白，建立了基准数据。
双轨方法设计巧妙：用同一个 Agent（MindAct）同时做实测和估算，验证了估算方法的局限性。
"预处理节能"的洞见：Web Agent 能效的关键不在模型大小，而在于能否通过巧妙的预处理减少需要处理的 token 总量。
碳排放换算直观有力——将抽象的 kWh 转化为开车公里数。

局限性 / 可改进方向¶

理论估算精度有限：7 倍的高估表明当前方法仅能提供粗略量级参考。
完全闭源 Agent 无法评估：如 OpenAI Operator、Google Mariner 由于没有任何技术细节公开，连估算都无法进行。
仅评估推理能耗：未考虑有些 Agent 需要微调带来的训练能耗。
Mind2Web 基准局限：离线 benchmark 可能无法反映真实部署中的能耗模式。
未涉及解决方案：主要是诊断和测量工作，没有提出降低能耗的具体技术方案。

评分¶

⭐⭐⭐

实用价值突出——首次为 Web Agent 领域建立了能耗基准，数据详实且实验设计合理。但作为研究贡献主要停留在测量和倡导层面，缺乏降低能耗的技术方案。理论估算方法的精度也有较大提升空间。