Unveiling Environmental Impacts of Large Language Model Serving: A Functional Unit View¶

会议: ACL 2025
arXiv: 2502.11256
代码: https://github.com/jojacola/FUEL
领域: LLM效率
关键词: LLM服务, 碳排放, 功能单元, 量化, 可持续AI

一句话总结¶

本文引入生命周期评估中"功能单元"（Functional Unit）概念作为标准化比较基础，提出 FUEL 框架来评估 LLM 服务的环境影响，通过三个案例研究（模型大小、量化策略、硬件选择）揭示了降低碳排放的关键权衡。

领域现状：LLM 广泛部署带来了显著的碳排放问题，单次 ChatGPT 查询产生超过 4 克 CO₂eq，是网页搜索的 20 倍以上。
现有痛点：现有碳排放研究只关注单个 LLM 的基准测试，缺乏跨模型比较的标准化基础，无法公平评估不同配置下的环境影响。
核心矛盾：直接比较不同模型/硬件的碳排放忽略了输出质量差异——更小的模型碳排放低但质量可能不达标，简单的"每 token 排放"指标不反映真实服务场景。
本文目标：建立一个标准化的比较框架，在相同质量和性能约束下评估不同 LLM 配置的碳效率。
切入角度：借鉴环境可持续性领域的生命周期评估方法论，将"功能单元"概念引入 LLM 服务评估。
核心 idea：将功能单元定义为满足特定工作负载、性能和质量约束的 token 生成，以此为基础公平比较碳排放。

FUEL 包含四个步骤：(1) 确定输入（模型、比较配置、服务约束）；(2) 定义功能单元（FU）；(3) 性能和能耗 profiling；(4) 碳排放建模。

功能单元（FU）定义:
- 功能：为不同 LLM 配置提供标准化的碳排放比较基础
- 核心思路：一个 FU 代表满足三项约束的 token——工作负载强度（QPS）、性能约束（TTFT≤1s, TPOT≤200ms）和质量约束（Qscore ≥ 阈值）。碳排放 per FU = 总碳排放 / 满足所有约束的 token 数 \(N_f\)。
- 设计动机：只有满足用户体验的 token 才算"有效"输出，低质量 token 不应降低碳排放的计算。
碳排放建模:
- 功能：综合计算运行碳和嵌入碳
- 核心思路：\(C_{total} = E_{op} \cdot CI + \frac{t}{LT} \cdot C_{em,total}\)，其中运行碳 = 能耗 × 碳强度，嵌入碳按硬件生命周期（5-7年）摊销。使用 pynvml 和 psutil 每 200ms 采样功率。
- 设计动机：仅看运行碳忽略了硬件制造的环境成本，尤其是新旧硬件的嵌入碳差异显著。
质量评估（Qscore）:
- 功能：量化模型输出质量以界定功能单元
- 核心思路：使用开源的 Skywork 奖励模型对每个响应评分，该模型在 RewardBench 上排名靠前，能跨任务一致地评估输出质量。
- 设计动机：评估输出质量本身很困难，奖励模型提供了一种无需参考答案的通用评估方式。

本文是评估框架，无训练过程。实验使用 vLLM 部署，温度设为 0 以减少随机性。