跳转至

Brevity is the soul of sustainability: Characterizing LLM response lengths

会议: ACL 2025
arXiv: 2506.08686
代码: https://github.com/sohampoddar26/LLM-brevity (有)
领域: LLM / 效率与可持续性
关键词: 响应长度, 能源效率, 提示工程, 输出压缩, 绿色AI

一句话总结

系统研究 12 个 LLM 在 5 个数据集上的响应长度行为,发现 LLM 普遍生成远超必要的冗长回复(核心答案仅占 42%),并提出多种提示策略将响应长度缩短 25-88%、推理能耗降低 25-60%,同时保持甚至提升 ROUGE-L F1 质量。

研究背景与动机

  1. 领域现状:LLM 推理阶段消耗大量能源(如 ChatGPT 每天处理超过 10 亿查询,估计消耗 0.5 GWh),推理优化研究主要集中在模型压缩、量化、蒸馏、投机解码等"减少每个 token 计算成本"的方向。输出压缩(减少生成 token 数量)几乎未被系统探索。
  2. 现有痛点
  3. LLM 普遍存在"冗长偏好"(verbose bias),生成的回复远长于必要。作者前期工作已证明推理能耗与输出长度高度正相关(输出是顺序生成的,不像输入可以并行缓存)
  4. 简单的微调实验(LoRA, r=16, 100 epochs)反而会略微增加响应长度(+1.24x),说明 LLM 的冗长行为深植于预训练
  5. 截断策略也受限——约 19% 的回复中核心答案不在开头
  6. 核心矛盾:更短的回复 = 更少的 token = 更低的能耗,但如何在不损失质量的前提下缩短回复?额外信息(解释、示例、礼貌语)可能增强用户体验,但带来额外能耗——这是一个此前未被量化的 trade-off。
  7. 本文要解决什么:(1) LLM 到底生成了多少多余的文本?多余的部分包含什么?(2) 简单的提示策略能否有效控制输出长度?(3) 长度缩减对质量和能耗的具体影响是多少?
  8. 切入角度:类比"经济舱 vs 商务舱"——核心需求(准时到达/获得答案)之外的增强体验是有额外成本的。首次系统量化这个 trade-off。
  9. 核心idea一句话:"简洁是可持续的灵魂"——提示工程控制输出长度是最简单、零成本的推理节能方法。

方法详解

整体框架

分三个阶段:(1) 在 12 个 LLM × 5 个数据集上 benchmark 响应长度 vs 目标长度;(2) 对 LLM 回复进行信息类别标注,定义 6 种类别并分析分布;(3) 设计多种提示策略压缩输出,评估长度/质量/能耗的影响。

关键设计

  1. 响应长度 Benchmark(12 LLM × 5 数据集)
  2. 做什么:比较 LLM 生成长度与目标答案长度
  3. 核心思路:选择 5 个事实性 QA 数据集(Dolly, GooAQ, MS-MaRCo, NarrativeQA, TweetQA),覆盖多样的任务类型、领域和答案类型
  4. 关键发现:LLM 回复与目标长度的比例可分三档——温和(1-3x,GPT-3.5)、较长(3-10x,GPT-4, Gemma, LLaMA-2, Mistral)、极长(>10x,LLaMA-3, Phi-3)。推理模型(DeepSeek-R1)回复中 64-74% 是 thinking/reasoning token

  5. 6 类信息标注框架

  6. 做什么:定义并标注 LLM 回复中的 6 种信息类别
  7. 核心思路:MinAns(核心答案)、AddInfo(额外补充信息)、Explain(推理/解释)、Convers(礼貌/对话增强)、RedInfo(冗余/重复)、Irrel(无关/幻觉)
  8. 关键发现:核心答案平均仅占 42%,不相关信息占约 18%,对话增强约 5.2%——减少后三类可立即节能。标注者间 F-measure 为 0.764
  9. 设计动机:需要知道多余的文本"是什么"才能针对性地设计压缩策略

  10. 6 种提示工程策略

  11. BRIEF:在查询末尾追加"Answer briefly"
  12. BM25-InContext:根据 BM25+ 检索 10 个相似问答对作为 in-context example,引导 LLM 学习合适的响应长度
  13. Limit-Len(3 个变体):指定"Answer within X words"——X 分别来自 BM25 检索的中位数(BM25-length)、真实答案长度(GoldResLen,oracle)、训练好的长度预测器(PredResLen,DeBERTa-v3-large 回归模型)
  14. Limit-Cat(2 个变体):MinAns(只给核心答案)、MAddNoRed(核心答案 + 补充信息,不要冗余和礼貌语)

评估指标

  • 响应长度(token 数)、ROUGE-L F1(与目标答案的匹配度)、推理能耗(用 CodeCarbon 测量,单位 mWh)
  • 信息类别分布变化

实验关键数据

主实验:策略效果对比(所有模型×数据集均值)

策略 长度缩减 能耗缩减 ROUGE-L F1 变化
MinAns ~60% ~28% 最高提升
PredResLen ~53% ~26% 与 oracle 持平
GoldResLen (oracle) ~50% ~26% 良好
BRIEF ~38% 适中 提升
BM25-length ~38% 较低(计算开销) 略有提升
MAddNoRed 较少 适中 适中
BM25-InContext 最少 无效(输入增长) 可能下降

LLM 冗长度分类

类型 代表模型 生成/目标长度比
温和 (1-3x) GPT-3.5 回复相对简洁
较长 (3-10x) GPT-4, Gemma-2, LLaMA-2, Mistral, Vicuna 中等冗余
极长 (>10x) LLaMA-3.1, Phi-3 极度冗余

信息类别分布

类别 占比 说明
MinAns (核心答案) ~42% 真正回答问题的部分
AddInfo (补充信息) ~21% 额外背景/上下文
Irrel (无关信息) ~18% 幻觉/跑题
Explain (解释推理) ~11.5% 思维过程展示
Convers (对话增强) ~5.2% "Let me know if..."
RedInfo (冗余重复) ~2% 同一信息重复表述

关键发现

  • 最简单的策略最有效:MinAns 仅添加"Only provide the minimal answer"就实现了最高的长度压缩和能耗节省,同时 ROUGE-L F1 反而提升——因为减少了噪声信息,精确率大幅提升
  • 监督式长度预测媲美 oracle:PredResLen(用 DeBERTa 预测理想长度)在某些模型上(Mistral 66%, LLaMA-2 77%, Gemma-2 69%)甚至超过使用真实答案长度的效果
  • 模型族的冗长行为一致:同一模型家族的不同大小版本有相似的信息类别分布,说明预训练策略是冗长度的主因
  • 新模型比旧模型更冗长:LLaMA-3.1, GPT-4 生成更多解释和附加信息;旧版 LLaMA-2, GPT-3.5 更倾向直接给核心答案
  • 回复长度与能耗线性正相关:每减少一个 token 就直接节省计算

亮点与洞察

  • 极其实用的发现:不需要改模型/改代码/改架构/改硬件,只需改提示就能节能 25-60%。这对 API 提供商和企业用户有直接的操作价值
  • "verbose bias"的首次系统量化:6 类信息标注框架将 LLM 的冗长倾向从直觉变为可量化的数据——核心答案仅占 42%,近 60% 是额外生成的
  • "经济舱 vs 商务舱"类比:首次将 LLM 增强信息的成本(能耗)与价值(用户体验)的 trade-off 框架化。这是绿色 AI 领域被忽视的视角
  • 输出压缩与模型压缩互补:模型压缩减少每个 token 的成本,输出压缩减少 token 数量——两者正交,可以叠加

局限性 / 可改进方向

  • 仅测试事实性 QA 任务:代码生成、创意写作等长文本任务不适合激进压缩,需要任务特定策略
  • ROUGE-L 不是完美的质量指标:无法替代人工评估用户满意度
  • 能耗测量依赖硬件/批次:不同 GPU、批大小可能影响绝对能耗值
  • 未探索训练时长度控制:如加入长度惩罚项、RLHF 偏好简短回复等方法
  • 部分 LLM 对类别控制提示响应不佳:Phi-3-small 和 LLaMA-3-8B 对 MAddNoRed 提示的遵从度较低
  • 微调反而增长:简单 LoRA 微调未能缩短回复,需要更深入的训练策略研究

相关工作与启发

  • vs 模型压缩/量化:剪枝、量化、蒸馏减少每个 token 的计算成本——与输出压缩完全正交互补
  • vs Li et al. (2024):他们提出了"Answer briefly"单一策略;本文系统比较 6+ 种策略,并首次定义了 6 类信息框架来理解为什么 LLM 冗长
  • 启发:API 提供商可以默认使用简洁提示模板(如 MinAns)来降低成本和碳排放,仅在用户明确要求时切换到详细模式

评分

  • 新颖性: ⭐⭐⭐ 观察新颖(verbose bias 量化)但方法简单(提示工程),6 类信息框架有贡献
  • 实验充分度: ⭐⭐⭐⭐ 12 模型 × 5 数据集 × 6+ 策略,多维度分析(长度/质量/能耗/信息类别)
  • 写作质量: ⭐⭐⭐⭐ 标题巧妙,"经济舱 vs 商务舱"类比生动,论述系统
  • 价值: ⭐⭐⭐⭐ 对绿色 AI 实践有直接指导意义,6 类信息框架可被后续研究复用