Cheems: A Practical Guidance for Building and Evaluating Chinese Reward Models from Scratch¶

会议: ACL 2025
arXiv: 2502.17173
代码: https://github.com/AlignRM/CheemsRM
领域: 对齐RLHF
关键词: reward model, Chinese preference, benchmark, distant supervision, RLHF

一句话总结¶

为弥补中文 Reward Model 资源的空白，本文构建了 CheemsBench（首个大规模中文 RM 评测基准）和 CheemsPreference（首个大规模中文偏好数据集），通过人机协作标注 + 远程监督过滤策略训练的 CheemsRM 在中文场景显著超越现有所有开源 RM。

研究背景与动机¶

领域现状：Reward Model 是 RLHF 的核心组件，但当前 RM 研究高度集中于英文场景（如 RewardBench、UltraRM、Skywork-Reward），中文 RM 发展严重滞后
现有痛点：
现有中文偏好数据集规模小（Huozi 仅几千条）、领域受限（知乎问答等特定场景）
现有 RM benchmark 均为英文（RewardBench），无法评估 RM 在中文场景的表现
大量依赖 GPT 合成标注数据，难以准确反映中文用户的真实偏好
核心矛盾：缺乏高质量的中文偏好数据和评测基准，导致中文 RM 无法有效学习并捕获中文用户的偏好
本文要解决什么？ 从零构建中文 RM 资源体系——评测基准 + 偏好数据集 + 训练方法
切入角度：以人类标注为核心，辅以远程监督策略扩大规模
核心idea一句话：先用全人工标注构建高质量小数据集和 benchmark，再用其训练的 RM 过滤 GPT 标注的大规模数据，实现质量与规模的平衡

方法详解¶

整体框架¶

分为三个部分：(1) CheemsBench 评测基准：2492 条 prompt × 5 responses，全人工五轮三选比较 + 冲突消解算法生成可靠偏序排名；(2) CheemsPreference 偏好数据集：27K 人类指令 + 多模型采样 + 人机协作标注（人工小集 + GPT 大集 + RM 过滤）；(3) CheemsRM：基于 Qwen2.5-72B-Instruct 在 CheemsPreference 上训练。

关键设计¶

CheemsBench 构建 — 多回复三选比较 + 冲突消解:
做什么：为每个 prompt 采样 5 个回复，进行 5 轮三选比较（triple-wise comparison），生成可靠的偏序排名
核心思路：将标注结果转为有向偏好图，用 DFS 检测环（冲突）→ 将环中节点合并为大节点 → 重复直到无环 → 拓扑排序得到偏序。使用 Accuracy 和 Exact Match 两种评测指标
设计动机：传统 pairwise comparison 在反映下游任务性能方面存在局限（Wen et al., 2024）。多回复评估更贴合实际使用场景（best-of-N sampling 等）。三选比较比两两比较的信息密度更高，同时避免了全排序的标注成本
数据来源：1146 条开源 prompt + 1346 条真实人类指令，覆盖推理、理解、创作、复杂指令等类别
CheemsPreference 构建 — 远程监督策略:
做什么：用人工标注的小数据集训练的 RM 来过滤 GPT 标注的大数据集
核心思路：(a) 人工标注 3260 条 prompt（37K comparisons），(b) GPT-4o 标注 27861 条 prompt（332K comparisons），对 \(C_N^2\) 对做 pairwise 比较。(c) 用人工数据训练的 RM 过滤 GPT 标注中的冲突和错误，保留一致的偏好链
设计动机：纯人工标注成本过高（3K 已是极限），纯 GPT 标注质量不可靠（存在位置偏差、不一致性）。远程监督在两者间取得平衡
长度去偏：按 chosen 比 rejected 长/短分两组，下采样较大组以平衡长度偏差
CheemsRM 训练 — 多回复 Bradley-Terry 损失:
做什么：在多回复偏序数据上训练判别式 RM
核心思路：Bradley-Terry 损失 \(\mathcal{L}' = -\mathbb{E}[\log\sigma(r(x, y_w) - r(x, y_l))]\)，加高斯正则化 \(\mathcal{L} = \mathcal{L}' + \mathbb{E}[r^2(x, y)]\) 稳定训练。使用贪心 sample-based batch 策略，尽量将同一 prompt 的所有回复放入一个 batch
设计动机：相比标准 pairwise 训练，多回复提供更丰富的比较信号；高斯正则防止 reward score 爆炸

实验关键数据¶

主实验¶

CheemsBench 上各 RM 表现:

模型	RewardBench	Open Prompt Acc.	Human Instr. Acc.	Overall
Skywork-Reward-Gemma-27B	0.938	0.754	0.748	0.535
Nemotron-70B-Reward	0.941	0.750	0.722	0.515
Skywork-Critic-70B (gen)	0.933	0.755	0.731	0.516
GPT-4o (gen)	0.846	0.640	0.727	0.457
CheemsRM (Ours)	0.919	0.857	0.832	0.657

CheemsRM 在 Overall 上以 0.657 大幅领先第二名 0.535（+12.2%），Exact Match 分别达到 0.508 和 0.431，远超其他模型（最好<0.33）。

消融实验¶

偏好数据来源消融:

数据来源	Open Acc.	Human Acc.	Overall
仅 GPT 标注	0.815	0.789	0.590
仅 Human 标注	0.829	0.811	0.614
GPT + Human	0.839	0.820	0.633
GPT + Human + 远程监督过滤	0.857	0.832	0.657

偏好数据集对比（训练基座: Qwen2.5-72B）:

数据集	Open Acc.	Human Acc.
Huozi (中文最佳现有)	0.728	0.682
HH-RLHF (英文)	0.753	0.740
Ultrafeedback (英文最佳)	0.769	0.749
CheemsPreference	0.857	0.832

关键发现¶

现有最强英文 RM（Skywork-Reward-Gemma-27B，RewardBench 0.938）在中文场景大幅降级——Overall 仅 0.535
人类标注数据虽然只有 3K，但训练效果优于 28K 的 GPT 标注数据，说明数据质量远比规模重要
远程监督过滤在 GPT + Human 基础上再提升 2.4% Overall，验证了过滤策略的有效性
RM 在"理解"类任务上表现最差，在"推理"类任务上表现最好——暗示当前 RM 更擅长判断客观正确性，而非主观质量

亮点与洞察¶

远程监督策略的精妙设计：用小量人工标注数据训练的 RM 来过滤大量 GPT 标注数据——这个"以小博大"的策略非常实用，可推广到其他语言和领域的偏好数据构建
冲突消解算法：将标注分歧形式化为图中的环路问题，用 DFS + 节点合并 + 拓扑排序解决，优雅且可扩展。这个算法可以复用到任何多标注者场景
首次系统性揭示中英文 RM 差距：即使是 RewardBench 顶级模型在中文场景也表现不佳，意义重大

局限性 / 可改进方向¶

基座模型依赖 Qwen2.5-72B：CheemsRM 计算成本高，可探索在更小模型（7B-14B）上的效果
偏好分类体系依赖人工设计：8 大类数十小类的分类可能遗漏某些中文特有场景（如古文理解、方言处理）
仅评估判别式用法：未验证 CheemsPreference 用于 DPO/PPO 训练的下游效果
GPT-4o 标注存在成本：28K prompt × \(C_5^2\) 对的 GPT-4o 调用成本不低，可探索更便宜的替代

评分¶

新颖性: ⭐⭐⭐ 资源贡献为主，技术新颖性中等（远程监督策略有新意）
实验充分度: ⭐⭐⭐⭐⭐ 评测全面（16+ RM 对比、多数据集消融、下游任务相关性分析）
写作质量: ⭐⭐⭐⭐ 结构清晰，数据详实，图表丰富
价值: ⭐⭐⭐⭐ 填补中文 RM 资源空白，对中文 LLM 对齐社区有重要参考价值