Brevity is the soul of sustainability: Characterizing LLM response lengths¶
会议: ACL 2025
arXiv: 2506.08686
代码: https://github.com/sohampoddar26/LLM-brevity (有)
领域: LLM / 效率与可持续性
关键词: 响应长度, 能源效率, 提示工程, 输出压缩, 绿色AI
一句话总结¶
系统研究 12 个 LLM 在 5 个数据集上的响应长度行为,发现 LLM 普遍生成远超必要的冗长回复(核心答案仅占 42%),并提出多种提示策略将响应长度缩短 25-88%、推理能耗降低 25-60%,同时保持甚至提升 ROUGE-L F1 质量。
研究背景与动机¶
- 领域现状:LLM 推理阶段消耗大量能源(如 ChatGPT 每天处理超过 10 亿查询,估计消耗 0.5 GWh),推理优化研究主要集中在模型压缩、量化、蒸馏、投机解码等"减少每个 token 计算成本"的方向。输出压缩(减少生成 token 数量)几乎未被系统探索。
- 现有痛点:
- LLM 普遍存在"冗长偏好"(verbose bias),生成的回复远长于必要。作者前期工作已证明推理能耗与输出长度高度正相关(输出是顺序生成的,不像输入可以并行缓存)
- 简单的微调实验(LoRA, r=16, 100 epochs)反而会略微增加响应长度(+1.24x),说明 LLM 的冗长行为深植于预训练
- 截断策略也受限——约 19% 的回复中核心答案不在开头
- 核心矛盾:更短的回复 = 更少的 token = 更低的能耗,但如何在不损失质量的前提下缩短回复?额外信息(解释、示例、礼貌语)可能增强用户体验,但带来额外能耗——这是一个此前未被量化的 trade-off。
- 本文要解决什么:(1) LLM 到底生成了多少多余的文本?多余的部分包含什么?(2) 简单的提示策略能否有效控制输出长度?(3) 长度缩减对质量和能耗的具体影响是多少?
- 切入角度:类比"经济舱 vs 商务舱"——核心需求(准时到达/获得答案)之外的增强体验是有额外成本的。首次系统量化这个 trade-off。
- 核心idea一句话:"简洁是可持续的灵魂"——提示工程控制输出长度是最简单、零成本的推理节能方法。
方法详解¶
整体框架¶
分三个阶段:(1) 在 12 个 LLM × 5 个数据集上 benchmark 响应长度 vs 目标长度;(2) 对 LLM 回复进行信息类别标注,定义 6 种类别并分析分布;(3) 设计多种提示策略压缩输出,评估长度/质量/能耗的影响。
关键设计¶
- 响应长度 Benchmark(12 LLM × 5 数据集):
- 做什么:比较 LLM 生成长度与目标答案长度
- 核心思路:选择 5 个事实性 QA 数据集(Dolly, GooAQ, MS-MaRCo, NarrativeQA, TweetQA),覆盖多样的任务类型、领域和答案类型
-
关键发现:LLM 回复与目标长度的比例可分三档——温和(1-3x,GPT-3.5)、较长(3-10x,GPT-4, Gemma, LLaMA-2, Mistral)、极长(>10x,LLaMA-3, Phi-3)。推理模型(DeepSeek-R1)回复中 64-74% 是 thinking/reasoning token
-
6 类信息标注框架:
- 做什么:定义并标注 LLM 回复中的 6 种信息类别
- 核心思路:MinAns(核心答案)、AddInfo(额外补充信息)、Explain(推理/解释)、Convers(礼貌/对话增强)、RedInfo(冗余/重复)、Irrel(无关/幻觉)
- 关键发现:核心答案平均仅占 42%,不相关信息占约 18%,对话增强约 5.2%——减少后三类可立即节能。标注者间 F-measure 为 0.764
-
设计动机:需要知道多余的文本"是什么"才能针对性地设计压缩策略
-
6 种提示工程策略:
- BRIEF:在查询末尾追加"Answer briefly"
- BM25-InContext:根据 BM25+ 检索 10 个相似问答对作为 in-context example,引导 LLM 学习合适的响应长度
- Limit-Len(3 个变体):指定"Answer within X words"——X 分别来自 BM25 检索的中位数(BM25-length)、真实答案长度(GoldResLen,oracle)、训练好的长度预测器(PredResLen,DeBERTa-v3-large 回归模型)
- Limit-Cat(2 个变体):MinAns(只给核心答案)、MAddNoRed(核心答案 + 补充信息,不要冗余和礼貌语)
评估指标¶
- 响应长度(token 数)、ROUGE-L F1(与目标答案的匹配度)、推理能耗(用 CodeCarbon 测量,单位 mWh)
- 信息类别分布变化
实验关键数据¶
主实验:策略效果对比(所有模型×数据集均值)¶
| 策略 | 长度缩减 | 能耗缩减 | ROUGE-L F1 变化 |
|---|---|---|---|
| MinAns | ~60% | ~28% | 最高提升 |
| PredResLen | ~53% | ~26% | 与 oracle 持平 |
| GoldResLen (oracle) | ~50% | ~26% | 良好 |
| BRIEF | ~38% | 适中 | 提升 |
| BM25-length | ~38% | 较低(计算开销) | 略有提升 |
| MAddNoRed | 较少 | 适中 | 适中 |
| BM25-InContext | 最少 | 无效(输入增长) | 可能下降 |
LLM 冗长度分类¶
| 类型 | 代表模型 | 生成/目标长度比 |
|---|---|---|
| 温和 (1-3x) | GPT-3.5 | 回复相对简洁 |
| 较长 (3-10x) | GPT-4, Gemma-2, LLaMA-2, Mistral, Vicuna | 中等冗余 |
| 极长 (>10x) | LLaMA-3.1, Phi-3 | 极度冗余 |
信息类别分布¶
| 类别 | 占比 | 说明 |
|---|---|---|
| MinAns (核心答案) | ~42% | 真正回答问题的部分 |
| AddInfo (补充信息) | ~21% | 额外背景/上下文 |
| Irrel (无关信息) | ~18% | 幻觉/跑题 |
| Explain (解释推理) | ~11.5% | 思维过程展示 |
| Convers (对话增强) | ~5.2% | "Let me know if..." |
| RedInfo (冗余重复) | ~2% | 同一信息重复表述 |
关键发现¶
- 最简单的策略最有效:MinAns 仅添加"Only provide the minimal answer"就实现了最高的长度压缩和能耗节省,同时 ROUGE-L F1 反而提升——因为减少了噪声信息,精确率大幅提升
- 监督式长度预测媲美 oracle:PredResLen(用 DeBERTa 预测理想长度)在某些模型上(Mistral 66%, LLaMA-2 77%, Gemma-2 69%)甚至超过使用真实答案长度的效果
- 模型族的冗长行为一致:同一模型家族的不同大小版本有相似的信息类别分布,说明预训练策略是冗长度的主因
- 新模型比旧模型更冗长:LLaMA-3.1, GPT-4 生成更多解释和附加信息;旧版 LLaMA-2, GPT-3.5 更倾向直接给核心答案
- 回复长度与能耗线性正相关:每减少一个 token 就直接节省计算
亮点与洞察¶
- 极其实用的发现:不需要改模型/改代码/改架构/改硬件,只需改提示就能节能 25-60%。这对 API 提供商和企业用户有直接的操作价值
- "verbose bias"的首次系统量化:6 类信息标注框架将 LLM 的冗长倾向从直觉变为可量化的数据——核心答案仅占 42%,近 60% 是额外生成的
- "经济舱 vs 商务舱"类比:首次将 LLM 增强信息的成本(能耗)与价值(用户体验)的 trade-off 框架化。这是绿色 AI 领域被忽视的视角
- 输出压缩与模型压缩互补:模型压缩减少每个 token 的成本,输出压缩减少 token 数量——两者正交,可以叠加
局限性 / 可改进方向¶
- 仅测试事实性 QA 任务:代码生成、创意写作等长文本任务不适合激进压缩,需要任务特定策略
- ROUGE-L 不是完美的质量指标:无法替代人工评估用户满意度
- 能耗测量依赖硬件/批次:不同 GPU、批大小可能影响绝对能耗值
- 未探索训练时长度控制:如加入长度惩罚项、RLHF 偏好简短回复等方法
- 部分 LLM 对类别控制提示响应不佳:Phi-3-small 和 LLaMA-3-8B 对 MAddNoRed 提示的遵从度较低
- 微调反而增长:简单 LoRA 微调未能缩短回复,需要更深入的训练策略研究
相关工作与启发¶
- vs 模型压缩/量化:剪枝、量化、蒸馏减少每个 token 的计算成本——与输出压缩完全正交互补
- vs Li et al. (2024):他们提出了"Answer briefly"单一策略;本文系统比较 6+ 种策略,并首次定义了 6 类信息框架来理解为什么 LLM 冗长
- 启发:API 提供商可以默认使用简洁提示模板(如 MinAns)来降低成本和碳排放,仅在用户明确要求时切换到详细模式
评分¶
- 新颖性: ⭐⭐⭐ 观察新颖(verbose bias 量化)但方法简单(提示工程),6 类信息框架有贡献
- 实验充分度: ⭐⭐⭐⭐ 12 模型 × 5 数据集 × 6+ 策略,多维度分析(长度/质量/能耗/信息类别)
- 写作质量: ⭐⭐⭐⭐ 标题巧妙,"经济舱 vs 商务舱"类比生动,论述系统
- 价值: ⭐⭐⭐⭐ 对绿色 AI 实践有直接指导意义,6 类信息框架可被后续研究复用