LongReward: Improving Long-context Large Language Models with AI Feedback¶

会议: ACL2025
arXiv: 2410.21252
代码: THUDM/LongReward
领域: llm_efficiency
关键词: 长上下文对齐, AI Feedback, DPO, 幻觉抑制, 长文档问答

研究背景与动机¶

长上下文模型的工程能力这两年提升很快，128k 甚至更长窗口已经不再稀缺，但“能读很长”和“读懂很长”是两回事。作者指出，很多长上下文模型的后训练阶段依赖自动合成的 QA 数据，这一步虽然便宜，却把质量问题一并放进了模型里。这些缺陷在短上下文里还能被模板化回复掩盖，在长文档问答和摘要里则会直接暴露为遗漏、幻觉、逻辑断裂和答非所问。已有 RLHF 或 RLAIF 证明奖励学习对短上下文有效，但长上下文场景长期缺一个可用奖励信号。人工标长文偏好太贵，审阅一次长文回答本身就接近一次完整阅读任务。传统短上下文奖励模型窗口太短，根本看不完原始文档，也无法判断“回答虽然顺畅，但是否真实来自上下文”。作者因此把问题拆成两个层次。第一层是奖励设计：怎样让一个现成大模型在长上下文场景下给出可信评分。第二层是训练落地：怎样把这些评分转成可训练的偏好对，真正推动长上下文模型变强。本文的核心观察是，长上下文回答质量不是单一标量，而是至少由四个相对独立的维度共同决定。帮助性关注有没有回答到点子上。逻辑性关注推理链有没有自相矛盾。忠实性关注回答中的事实是否能被上下文支撑。完整性关注重要信息是否被遗漏，尤其是长文中间和尾部信息是否被忽略。这四个维度合在一起，才更接近真实用户对长文回答的主观评价。从动机上看，本文并不是要训练一个新的长上下文 reward model，而是先用现成强模型搭一个可靠评分流水线，再把它嵌入 DPO 这类离线 RL 中。这个路线的价值在于门槛更低、实现更快，也更适合当前长上下文数据还在快速变化的阶段。

方法详解¶

LongReward 的整体流程可以概括为“分维度评分，再用分数构偏好对，再做长上下文 DPO”。输入是一个长上下文 prompt，通常由长文档上下文和用户 query 组成，以及候选回答。输出是四个维度的 0 到 10 分评分，以及它们的平均值作为最终 reward。作者没有强行用一套 prompt 解决所有问题，而是针对不同维度分别设计判分管线，这是本文最关键的工程设计。

第一部分是帮助性评分。帮助性主要依赖 query 和 response，本质上问的是回答是否相关、是否满足需求、是否信息充分。因为作者把真实性单独划给忠实性，所以帮助性评估不必强依赖长上下文原文。具体做法是给 judge model 提供评分原则、few-shot 示例和 CoT 要求，让它先分析再打分。这样做的好处是把“长上下文内容检索”从帮助性里拿掉，避免评估过重。

第二部分是逻辑性评分。作者认为长上下文模型常见的一类错误不是事实错，而是前后推理不一致。例如前文给出一个判断，后文又在另一个段落否定它，或者中间计算错但最后结论似乎正确。逻辑性也主要依赖 query 与 response，因此仍然用 few-shot 加 CoT 的直接打分策略。不同于帮助性，逻辑性 prompt 会显式要求 judge 先定位逻辑错误，再输出分数。这等于把“找错”变成评分前置步骤，减少模型只凭语言流畅度给高分的风险。

第三部分是忠实性评分。这是 LongReward 中最有技术含量的一环，因为它必须把“回答来自上下文”这件事显式验证出来。作者借鉴 FactScore 的 break-and-check 思路，但针对长文场景做了三点改造。第一，回答不是拆成原子事实，而是拆成句子级 factual statements。这样检索召回更稳，也减少了超长回答下的核验次数。第二，功能性句子会被过滤，例如“下面是几点原因”这种不承载事实的句子不会进入核验列表。第三，每条陈述不是二元判断，而是 full support、partial support、no support 三档，对应 1、0.5、0。最后忠实性得分按 \(10 \cdot \sum_i a_i / n\) 聚合，其中 \(a_i\) 是每个陈述的支持度。为了给每条陈述找到证据，系统会以该陈述为查询，从原始上下文中检索 top-5 个 128-token 片段，再让 judge 判断支持程度。这一步把“阅读整篇长文再核实一句话”变成“局部证据核验”，成本明显可控。

第四部分是完整性评分。完整性不是看回答有没有胡说，而是看有没有漏掉关键点。作者专门强调，长上下文模型往往会遗忘中间位置的信息，因此如果直接把整篇长文和回答一起喂给 judge，judge 自己也可能漏看。 LongReward 采用分治策略。它先把原始上下文切成 4096-token 的粗粒度块。然后让 judge 从每一块里提取与 query 相关的信息。接着把所有块中抽到的信息汇总，再让 judge 评估回答是否覆盖这些关键点。这一设计的本质是先做“信息摘要”，再做“覆盖率判定”，避免评分模型在超长输入上同样出现位置偏置。

四维评分之后，最终 reward 是四个分数的平均值。作者没有手工调不同维度权重，而是默认等权。这其实反映出论文的立场：帮助、逻辑、真实、完整缺一不可，先用均衡目标建立可用管线比再做精细加权更重要。

拿到 reward 之后，作者用它来构造长上下文偏好数据。对每个长上下文 prompt，先从 SFT 模型用 temperature 为 1.0 采样 10 个候选回答。然后对 10 个候选逐个跑 LongReward。分数最高的回答作为 winning response，最低的作为 losing response。这样就把“分数监督”转换成了 DPO 需要的 pairwise preference。

训练阶段使用 DPO，但作者没有只用标准 DPO 损失。为了稳定训练，又加入了 winning response 上的交叉熵正则项。总损失是 \(\mathcal{L}_{merge} = \mathcal{L}_{DPO} + \lambda \mathcal{L}_{CE}\)。这里的直觉很清楚：DPO 能推开好坏回答的相对概率，但过强时可能损伤语言建模稳定性；CE 正则帮助模型别偏离原本的可生成分布太远。

从方法论上看，LongReward 的关键不在“又造了一个 judge prompt”，而在于它把长上下文评分拆成可操作、可局部验证的多个子问题。这让一个现成大模型在长文任务中不只是凭感觉打总分，而是沿着结构化流程给出较稳的奖励。

维度	依赖输入	核心机制	解决的主要问题
帮助性	query + response	few-shot + CoT 直接评分	是否答到用户需求
逻辑性	query + response	先找逻辑错误再评分	前后矛盾、推理断裂
忠实性	response + 检索片段	拆句、检索、三级支持判定	幻觉与事实失真
完整性	query + 分块上下文 + response	分块抽取关键信息再评估覆盖率	长文关键信息遗漏

DPO 数据构建步骤	具体做法	作用
候选采样	每个 prompt 采样 10 个回答	保证同一问题下有足够候选差异
LongReward 评分	对每个回答算四维平均分	生成稳定 reward
偏好对抽取	最高分 vs 最低分	转换为 DPO 可训练样本
DPO + CE 训练	\(\beta=0.15\)，\(\lambda=0.1\)	同时提升偏好学习与稳定性

实验关键数据¶

实验基座包含 Llama-3.1-8B 和 GLM-4-9B，两者都支持 128k 上下文，并先做了长上下文 SFT 再做 DPO。长上下文 SFT 数据由 1 万条长文 QA 和 7.6 万条 ShareGPT 通用数据混合而成，长文长度覆盖 8k 到 64k token，涉及 9 个领域。 LongReward 评分用 GLM-4 执行，忠实性检索器使用 Zhipu-Embedding-2，每条 factual statement 检索 top-5 片段。训练上，SFT 进行 1800 步，DPO 再进行约 400 到 800 步，说明本文不是靠极长训练把效果“磨”出来，而是靠更好的偏好构建策略。

实验设置	配置
基座模型	Llama-3.1-8B, GLM-4-9B
上下文长度	支持 128k，训练最长 64k
长文 SFT 数据	10k 长文 QA + 76k ShareGPT
候选回答数	每个 prompt 采样 10 个
忠实性检索	Zhipu-Embedding-2, top-5 片段
DPO 超参	\(\beta=0.15\), \(\lambda=0.1\), lr=\(1e-6\)
训练资源	4 节点，每节点 8 张 H800

主结果最值得注意的是，LongReward 在两个基座上都显著优于 SFT、短上下文 reward model 和“拿大模型回答当正样本”的 Contrast 基线。对 Llama-3.1-8B，LongReward DPO 的平均分达到 59.9，相比 SFT 的 55.0 提升 4.9 个点。对 GLM-4-9B，平均分从 56.6 提升到 62.1，提升 5.5 个点。尤其在 Multi-Doc QA 上，Llama 版本从 44.5 直接涨到 55.8，说明该方法特别擅长缓解“多文档信息聚合时的遗漏和错配”。

模型	方法	LongBench-Chat	S-Doc QA	M-Doc QA	Summ	Avg
Llama-3.1-8B	SFT	69.8	66.1	44.5	39.6	55.0
Llama-3.1-8B	DPO w/ SRM	67.4	65.0	49.6	42.7	56.2
Llama-3.1-8B	DPO w/ Contrast	70.6	67.8	46.2	40.3	56.2
Llama-3.1-8B	DPO w/ LongReward	72.6	67.8	55.8	43.2	59.9
GLM-4-9B	SFT	64.8	68.4	50.9	42.1	56.6
GLM-4-9B	DPO w/ SRM	66.6	67.5	57.4	48.2	59.9
GLM-4-9B	DPO w/ Contrast	68.2	67.8	58.0	47.8	60.5
GLM-4-9B	DPO w/ LongReward	69.2	71.9	58.8	48.5	62.1

论文还做了两个特别关键的补充实验。一是 FactScore 分析。 LongReward DPO 不只是让回答更“像好答案”，而是让回答中被上下文支撑的事实比例更高，同时包含更多原子事实。 Llama 版本的 FactScore 从 91.94 升到 92.85，平均 atomic facts 数从 21.76 升到 32.86。这说明模型不是靠缩短回答来规避错误，而是在更详细的同时保持更高真实性。

二是人类评估。在 LongBench-Chat 上，LongReward DPO 对 SFT 的总体 win-rate 是 54%，loss 只有 8%。四个维度里提升最大的是真实性和完整性，这与方法设计完全一致，因为这两个维度正是 LongReward 专门下重功夫建模的部分。

分析项	SFT	DPO w/ LongReward	结论
Llama #Facts	21.76	32.86	回答更详细
Llama FactScore	91.94	92.85	细节更多但没牺牲真实性
GLM #Facts	18.41	28.05	覆盖信息更多
GLM FactScore	91.43	93.62	幻觉进一步下降
人类 Overall Win/Loss	-	54% / 8%	人类主观偏好明显更高

另外一个容易被忽视但很重要的发现是，LongReward 带来的长上下文 DPO 还能提升短指令跟随能力。例如 AlpacaEval2 上，Llama 从 12.4 升到 14.2，GLM 从 12.5 升到 15.4。这说明本文学习到的偏好不是“只适用于长文问答的局部技巧”，而是更普遍的输出价值观，比如尽量真实、完整、逻辑一致。

作者还比较了不同奖励策略与人工偏好的对齐度。 LongReward 的预测准确率达到 66.2%，高于短上下文奖励模型的 58.3%，也高于直接成对比较的 57.1%。更关键的是，删掉任何一个维度都会降分，其中去掉忠实性或完整性会跌到 57.8%。这从实验上证明四维设计不是装饰，而是真正必要的组成部分。

亮点与洞察¶

最强的亮点是把“长上下文奖励难以获取”这个模糊问题拆成四个可执行子任务，每个子任务都有独立判分机制，而不是试图用一个总分 prompt 一把梭。忠实性的 break-and-check 加检索验证非常务实，本质上把开放式长文核验转换成局部证据支持判断，工程上可复用性很强。完整性的分块抽取再覆盖评估也很有启发，这其实是一种“先把长文压缩成 query-aware memory，再做 judge”的设计范式。本文还说明，长上下文对齐不必和短上下文对齐冲突，二者甚至可以用混合偏好数据共同训练。从研究角度看，LongReward 代表一种比训练新 reward model 更轻的路线：先用强 judge 搭可靠标注管线，再在此基础上蒸馏或训练更便宜模型。从工程角度看，这种方案适合快速迭代，因为四维 prompt、检索器、chunk 粒度都可以独立替换。我认为本文最重要的洞察不是“DPO 有用”，而是“长上下文回答质量必须结构化定义，否则 reward 本身会被长文噪声淹没”。

局限与展望¶

第一，成本仍然很高。每个 QA 样本要做多次候选采样、多个维度评分、忠实性检索核验和完整性分块分析，整体 API 调用量不低。第二，实验规模仍停留在 10B 左右模型和最长 64k 训练长度，尚未证明在更大模型和更长序列下仍保持同样收益。第三，任务主要集中在长文 QA 与摘要，对多轮长历史对话、长期 agent 记忆、代码仓库级推理等场景尚未覆盖。第四，四维等权虽然简单，但不同任务真实偏好权重可能不同，例如法律检索和创意摘要对完整性与帮助性的侧重点并不一样。未来可行的方向有三条。一条是用 LongReward 产生的大量偏好对训练专门的长上下文 reward model，降低推理成本。一条是把完整性与忠实性进一步细分到引用级监督，例如要求回答附带证据跨度或段落引用。一条是把该框架移植到 agent 轨迹评估里，把“计划完整性”和“执行忠实性”纳入奖励设计。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把长上下文奖励设计系统化分解为四维，并给出各自评估管线，方法层面很扎实。
实验充分度: ⭐⭐⭐⭐⭐ 双基座、自动评测、人评、FactScore、短上下文泛化、混合 DPO 兼容性都做到了。
写作质量: ⭐⭐⭐⭐☆ 论文的核心设计和实验逻辑都比较清楚，尤其是四维评分与 DPO 的衔接很顺。
价值: ⭐⭐⭐⭐⭐ 对长上下文对齐是非常实用的基建型工作，后续可直接服务 reward model、RLAIF 和 agent 评估。
综合评价: 9.0/10。它不是靠花哨架构取胜，而是把一个长期缺位的训练信号问题做成了可复用、可扩展、能稳定带来收益的方案。--- title: >- [论文解读] LongReward: Improving Long-context Large Language Models with AI Feedback description: >- [ACL2025][LLM效率][长上下文LLM] 提出 LongReward，利用现成 LLM 从帮助性、逻辑性、忠实性和完整性四个维度为长上下文模型回复自动打分，结合 DPO 离线强化学习显著提升长上下文 SFT 模型的多维能力。 tags:
ACL2025
LLM效率
长上下文LLM
强化学习
DPO
AI反馈
奖励模型

LongReward: Improving Long-context Large Language Models with AI Feedback¶

会议: ACL2025
arXiv: 2410.21252
代码: THUDM/LongReward
领域: llm_efficiency
关键词: 长上下文LLM, 强化学习, DPO, AI反馈, 奖励模型

一句话总结¶

提出 LongReward，利用现成 LLM 从帮助性、逻辑性、忠实性和完整性四个维度为长上下文模型回复自动打分，结合 DPO 离线强化学习显著提升长上下文 SFT 模型的多维能力。

研究背景与动机¶

任务场景: 长上下文 LLM 的上下文窗口已扩展至 128k+ tokens，但其 SFT 阶段所用的长上下文 QA 数据几乎全由 LLM 自动合成，难以保证质量，导致模型存在幻觉、逻辑错误和信息遗漏等固有缺陷。
现有方案不足: 短上下文 RL（如 RLHF/RLAIF）已被证明能有效减少幻觉和不忠实输出，但直接迁移到长上下文面临两大障碍：(1) 人工标注长文本偏好对不可扩展；(2) 现有短上下文奖励模型受限于窗口大小，无法处理长输入，实验表明其准确率仅 58.3%。
核心问题: 如何在长上下文场景中自动获取可靠的多维奖励信号，使 RL 算法（如 DPO）能进一步增强长上下文 SFT 模型？
关键洞察: 长上下文回复的质量不能用单一分数衡量，需要从帮助性、逻辑性、忠实性、完整性四个正交维度分别评估，且不同维度需要不同的评估策略——帮助性和逻辑性可仅基于 query+response 评判，忠实性需细粒度检索验证，完整性需分治策略避免"中间遗忘"。

关键设计¶

1. 四维 LLM-as-Judge 评分框架

利用一个现成的对齐 LLM（\(M_{\text{judge}}\)，如 GLM-4）从四个人类重视的维度为长上下文回复打分（各 0-10 分），取平均作为最终奖励。核心设计在于：帮助性和逻辑性的评估与上下文无关，可直接基于 query+response 通过 few-shot + CoT 完成；忠实性借鉴 FactScore 的"拆解-检验"策略，先将回复拆解为句子级事实陈述（跳过功能性句子），再对每个陈述检索 top-5 个 128-token 上下文片段进行三级支持度判定（完全支持 1.0 / 部分支持 0.5 / 不支持 0），最终忠实性分数 = \((10 \cdot \sum a_i) / n\)；完整性采用分治策略，先将上下文分割为 4096-token 粗粒度块并逐块提取问题相关信息，再汇总评估回复的覆盖程度，有效应对 LLM 的"中间遗忘"问题。

维度	评估依据	评估方法	核心特点
帮助性	query + response	few-shot + CoT 直接打分	无需上下文，关注相关性与信息量
逻辑性	query + response	few-shot + CoT 先找错再打分	无需上下文，检测逻辑矛盾与推理错误
忠实性	response + 检索的上下文片段	拆解→检索→三级验证→汇总	句子级拆解+检索，避免长文本直接判断
完整性	分块提取的信息 + response	分块提取→汇总→评估覆盖度	分治策略，避免"中间遗忘"

2. 基于 LongReward 的长上下文 DPO 训练流程

将 LongReward 与 DPO 离线强化学习结合，自动构建长上下文偏好数据集。具体流程：对每个长上下文 prompt，从 SFT 模型以 temperature=1.0 采样 \(m=10\) 个候选回复 → 用 LongReward 为每个回复计算四维平均奖励 → 选取最高分和最低分回复组成偏好对 \((y_w, y_l)\) → 使用 DPO 损失训练，并加入交叉熵正则化稳定训练：

\[\mathcal{L}_{\text{merge}} = \mathcal{L}_{\text{DPO}} + \lambda \cdot \mathcal{L}_{\text{CE}}\]

其中 \(\mathcal{L}_{\text{CE}}\) 在 winning response 上计算，防止 DPO 训练时策略退化。

3. 长短上下文 DPO 兼容融合

LongReward 构建的长上下文偏好数据可与短上下文 SRM 构建的偏好数据直接混合训练，无需额外适配。混合 DPO 训练能同时聚合两者优势：长上下文性能接近纯长 DPO，短指令跟随能力接近纯短 DPO，实现长短双赢。

实验结果¶

实验设置¶

配置项	详情
基座模型	Llama-3.1-8B、GLM-4-9B（均支持 128k 上下文）
SFT 数据	10k 长上下文 QA（8k-64k tokens，9 领域）+ 76k ShareGPT 通用数据
SFT 训练	1800 步（~2 epochs），lr=1e-5，batch=8
DPO 训练	β=0.15，λ=0.1，lr=1e-6，batch=16，400-800 步
评判模型	GLM-4
忠实性检索器	Zhipu-Embedding-2，top-5 chunks
长上下文评测	LongBench-Chat（50 题）+ LongBench（2350 题：S-Doc QA / M-Doc QA / Summ）
短上下文评测	MT-Bench（80 题）+ AlpacaEval2（805 题）
硬件	4 节点 × 8×H800 GPU

主实验：长上下文基准测试（GPT-4o 评分）¶

模型	方法	LongBench-Chat	S-Doc QA	M-Doc QA	Summ	Avg
Llama-3.1-8B	officially post-trained	60.2	59.3	42.9	35.3	49.4
Llama-3.1-8B	SFT	69.8	66.1	44.5	39.6	55.0
Llama-3.1-8B	DPO w/ SRM	67.4	65.0	49.6	42.7	56.2
Llama-3.1-8B	DPO w/ Contrast	70.6	67.8	46.2	40.3	56.2
Llama-3.1-8B	DPO w/ LongReward	72.6	67.8	55.8	43.2	59.9
GLM-4-9B	officially post-trained	68.6	67.8	56.9	47.9	60.3
GLM-4-9B	SFT	64.8	68.4	50.9	42.1	56.6
GLM-4-9B	DPO w/ SRM	66.6	67.5	57.4	48.2	59.9
GLM-4-9B	DPO w/ Contrast	68.2	67.8	58.0	47.8	60.5
GLM-4-9B	DPO w/ LongReward	69.2	71.9	58.8	48.5	62.1

LongReward + DPO 在 Llama-3.1-8B 和 GLM-4-9B 上分别比 SFT 提升 4.9% 和 5.5%，超越所有基线方法（SRM、Contrast），且分别超过官方 post-trained 模型 10.5% 和 1.8%。

人类评估（Llama-3.1-8B, LongBench-Chat, DPO vs SFT）¶

维度	Win	Tie	Loss	Δ(Win-Loss)
Helpfulness	0.14	0.84	0.02	+0.12
Logicality	0.14	0.86	0.00	+0.14
Faithfulness	0.32	0.64	0.04	+0.28
Completeness	0.26	0.64	0.10	+0.16
Overall	0.54	0.38	0.08	+0.46

DPO 模型整体胜率 54% vs 败率 8%，四个维度均获得更多胜出，忠实性维度改善最为显著（Δ=+0.28）。

其他关键发现¶

FactScore 提升: DPO 模型事实准确率更高（Llama: 91.94→92.85, GLM: 91.43→93.62），且回复包含更多原子事实（Llama: 21.76→32.86），表明回复更详细全面
短上下文也受益: 长上下文 DPO 意外提升短指令跟随能力（AlpacaEval2: Llama 12.4→14.2, GLM 12.5→15.4）
与人类偏好对齐度最高: LongReward 准确率 66.2%，短上下文 RM 仅 58.3%，直接配对比较仅 57.1%
消融验证: 四个维度均不可或缺，去除忠实性或完整性对准确率影响最大（均降至 57.8%）

亮点与局限¶

亮点:

首次系统性解决长上下文场景的奖励信号缺失问题，填补 RL 用于长上下文 LLM 的空白
四维评估分而治之设计精巧：帮助性/逻辑性直接评估（无需上下文），忠实性用拆解-检索-验证，完整性用分治策略，各有针对性地回避长上下文评估难题
实验体系极为完整：双模型 + 多基准 + 自动评测 + 人工评估 + FactScore + 消融 + 短上下文验证 + 长短兼容性验证

局限:

成本高：依赖 GLM-4 等对齐 LLM 提供奖励，每个 QA 实例需数十次 API 调用
规模受限：仅在 10B 级模型上实验，最大训练长度 64k，未验证更大规模
场景受限：主要关注文档 QA 和摘要，未覆盖终身对话、长历史 Agent 等高级场景

评分¶

新颖性: ⭐⭐⭐⭐ — 首个针对长上下文场景的系统性 AI 奖励方法，四维分治评估策略设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 双模型、多基准、自动+人工评估、FactScore、消融、长短兼容性全面覆盖
写作质量: ⭐⭐⭐⭐ — 结构清晰，四维评估的 motivation 和分治设计讲解透彻，图表丰富
价值: ⭐⭐⭐⭐ — 为长上下文 LLM 对齐提供了实用且有效的方案，长短 DPO 兼容融合具有工程价值

LongReward: Improving Long-context Large Language Models with AI Feedback¶

研究背景与动机¶

方法详解¶

实验关键数据¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

LongReward: Improving Long-context Large Language Models with AI Feedback¶

一句话总结¶

研究背景与动机¶

关键设计¶

实验结果¶

实验设置¶

主实验：长上下文基准测试（GPT-4o 评分）¶

人类评估（Llama-3.1-8B, LongBench-Chat, DPO vs SFT）¶

其他关键发现¶

亮点与局限¶

评分¶

相关论文¶