Brevity is the soul of sustainability: Characterizing LLM response lengths¶

会议: ACL 2025
arXiv: 2506.08686
代码: https://github.com/sohampoddar26/LLM-brevity (有)
领域: LLM / 效率与可持续性
关键词: 响应长度, 能源效率, 提示工程, 输出压缩, 绿色AI

一句话总结¶

系统研究 12 个 LLM 在 5 个数据集上的响应长度行为，发现 LLM 普遍生成远超必要的冗长回复（核心答案仅占 42%），并提出多种提示策略将响应长度缩短 25-88%、推理能耗降低 25-60%，同时保持甚至提升 ROUGE-L F1 质量。

研究背景与动机¶

领域现状：LLM 推理阶段消耗大量能源（如 ChatGPT 每天处理超过 10 亿查询，估计消耗 0.5 GWh），推理优化研究主要集中在模型压缩、量化、蒸馏、投机解码等"减少每个 token 计算成本"的方向。输出压缩（减少生成 token 数量）几乎未被系统探索。
现有痛点：
LLM 普遍存在"冗长偏好"（verbose bias），生成的回复远长于必要。作者前期工作已证明推理能耗与输出长度高度正相关（输出是顺序生成的，不像输入可以并行缓存）
简单的微调实验（LoRA, r=16, 100 epochs）反而会略微增加响应长度（+1.24x），说明 LLM 的冗长行为深植于预训练
截断策略也受限——约 19% 的回复中核心答案不在开头
核心矛盾：更短的回复 = 更少的 token = 更低的能耗，但如何在不损失质量的前提下缩短回复？额外信息（解释、示例、礼貌语）可能增强用户体验，但带来额外能耗——这是一个此前未被量化的 trade-off。
本文要解决什么：(1) LLM 到底生成了多少多余的文本？多余的部分包含什么？(2) 简单的提示策略能否有效控制输出长度？(3) 长度缩减对质量和能耗的具体影响是多少？
切入角度：类比"经济舱 vs 商务舱"——核心需求（准时到达/获得答案）之外的增强体验是有额外成本的。首次系统量化这个 trade-off。
核心idea一句话："简洁是可持续的灵魂"——提示工程控制输出长度是最简单、零成本的推理节能方法。

方法详解¶

整体框架¶

分三个阶段：(1) 在 12 个 LLM × 5 个数据集上 benchmark 响应长度 vs 目标长度；(2) 对 LLM 回复进行信息类别标注，定义 6 种类别并分析分布；(3) 设计多种提示策略压缩输出，评估长度/质量/能耗的影响。

关键设计¶

响应长度 Benchmark（12 LLM × 5 数据集）：
做什么：比较 LLM 生成长度与目标答案长度
核心思路：选择 5 个事实性 QA 数据集（Dolly, GooAQ, MS-MaRCo, NarrativeQA, TweetQA），覆盖多样的任务类型、领域和答案类型
关键发现：LLM 回复与目标长度的比例可分三档——温和（1-3x，GPT-3.5）、较长（3-10x，GPT-4, Gemma, LLaMA-2, Mistral）、极长（>10x，LLaMA-3, Phi-3）。推理模型（DeepSeek-R1）回复中 64-74% 是 thinking/reasoning token
6 类信息标注框架：
做什么：定义并标注 LLM 回复中的 6 种信息类别
核心思路：MinAns（核心答案）、AddInfo（额外补充信息）、Explain（推理/解释）、Convers（礼貌/对话增强）、RedInfo（冗余/重复）、Irrel（无关/幻觉）
关键发现：核心答案平均仅占 42%，不相关信息占约 18%，对话增强约 5.2%——减少后三类可立即节能。标注者间 F-measure 为 0.764
设计动机：需要知道多余的文本"是什么"才能针对性地设计压缩策略
6 种提示工程策略：
BRIEF：在查询末尾追加"Answer briefly"
BM25-InContext：根据 BM25+ 检索 10 个相似问答对作为 in-context example，引导 LLM 学习合适的响应长度
Limit-Len（3 个变体）：指定"Answer within X words"——X 分别来自 BM25 检索的中位数（BM25-length）、真实答案长度（GoldResLen，oracle）、训练好的长度预测器（PredResLen，DeBERTa-v3-large 回归模型）
Limit-Cat（2 个变体）：MinAns（只给核心答案）、MAddNoRed（核心答案 + 补充信息，不要冗余和礼貌语）

评估指标¶

响应长度（token 数）、ROUGE-L F1（与目标答案的匹配度）、推理能耗（用 CodeCarbon 测量，单位 mWh）
信息类别分布变化

实验关键数据¶

主实验：策略效果对比（所有模型×数据集均值）¶

策略	长度缩减	能耗缩减	ROUGE-L F1 变化
MinAns	~60%	~28%	最高提升
PredResLen	~53%	~26%	与 oracle 持平
GoldResLen (oracle)	~50%	~26%	良好
BRIEF	~38%	适中	提升
BM25-length	~38%	较低（计算开销）	略有提升
MAddNoRed	较少	适中	适中
BM25-InContext	最少	无效（输入增长）	可能下降

LLM 冗长度分类¶

类型	代表模型	生成/目标长度比
温和 (1-3x)	GPT-3.5	回复相对简洁
较长 (3-10x)	GPT-4, Gemma-2, LLaMA-2, Mistral, Vicuna	中等冗余
极长 (>10x)	LLaMA-3.1, Phi-3	极度冗余

信息类别分布¶

类别	占比	说明
MinAns (核心答案)	~42%	真正回答问题的部分
AddInfo (补充信息)	~21%	额外背景/上下文
Irrel (无关信息)	~18%	幻觉/跑题
Explain (解释推理)	~11.5%	思维过程展示
Convers (对话增强)	~5.2%	"Let me know if..."
RedInfo (冗余重复)	~2%	同一信息重复表述

关键发现¶

最简单的策略最有效：MinAns 仅添加"Only provide the minimal answer"就实现了最高的长度压缩和能耗节省，同时 ROUGE-L F1 反而提升——因为减少了噪声信息，精确率大幅提升
监督式长度预测媲美 oracle：PredResLen（用 DeBERTa 预测理想长度）在某些模型上（Mistral 66%, LLaMA-2 77%, Gemma-2 69%）甚至超过使用真实答案长度的效果
模型族的冗长行为一致：同一模型家族的不同大小版本有相似的信息类别分布，说明预训练策略是冗长度的主因
新模型比旧模型更冗长：LLaMA-3.1, GPT-4 生成更多解释和附加信息；旧版 LLaMA-2, GPT-3.5 更倾向直接给核心答案
回复长度与能耗线性正相关：每减少一个 token 就直接节省计算

亮点与洞察¶

极其实用的发现：不需要改模型/改代码/改架构/改硬件，只需改提示就能节能 25-60%。这对 API 提供商和企业用户有直接的操作价值
"verbose bias"的首次系统量化：6 类信息标注框架将 LLM 的冗长倾向从直觉变为可量化的数据——核心答案仅占 42%，近 60% 是额外生成的
"经济舱 vs 商务舱"类比：首次将 LLM 增强信息的成本（能耗）与价值（用户体验）的 trade-off 框架化。这是绿色 AI 领域被忽视的视角
输出压缩与模型压缩互补：模型压缩减少每个 token 的成本，输出压缩减少 token 数量——两者正交，可以叠加

局限性 / 可改进方向¶

仅测试事实性 QA 任务：代码生成、创意写作等长文本任务不适合激进压缩，需要任务特定策略
ROUGE-L 不是完美的质量指标：无法替代人工评估用户满意度
能耗测量依赖硬件/批次：不同 GPU、批大小可能影响绝对能耗值
未探索训练时长度控制：如加入长度惩罚项、RLHF 偏好简短回复等方法
部分 LLM 对类别控制提示响应不佳：Phi-3-small 和 LLaMA-3-8B 对 MAddNoRed 提示的遵从度较低
微调反而增长：简单 LoRA 微调未能缩短回复，需要更深入的训练策略研究

评分¶

新颖性: ⭐⭐⭐ 观察新颖（verbose bias 量化）但方法简单（提示工程），6 类信息框架有贡献
实验充分度: ⭐⭐⭐⭐ 12 模型 × 5 数据集 × 6+ 策略，多维度分析（长度/质量/能耗/信息类别）
写作质量: ⭐⭐⭐⭐ 标题巧妙，"经济舱 vs 商务舱"类比生动，论述系统
价值: ⭐⭐⭐⭐ 对绿色 AI 实践有直接指导意义，6 类信息框架可被后续研究复用