TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning¶
会议: ACL 2025
arXiv: 2503.04381
代码: https://github.com/d223302/TRACT
领域: LLM 推理
关键词: LLM-as-a-Judge, 回归感知微调, Chain-of-Thought, 数值预测, 自生成CoT
一句话总结¶
提出 TRACT,一种两阶段回归感知微调方法,将 CoT 推理与回归损失(squared error)结合,用于提升 LLM-as-a-Judge 场景中的数值评分精度,显著优于仅用交叉熵训练或仅用回归损失的现有方案。
研究背景与动机¶
- 领域现状:
- LLM-as-a-Judge 已成为自动化文本评估的主流范式,模型根据细粒度评分标准对文本输出打分(如1-5分)
- 现有方法通常使用交叉熵(CE)损失微调 LLM,让其先生成 CoT 分析再输出分数
-
RAFT(Regression-Aware Fine-Tuning)已被证明可改善数值回归任务性能,但未考虑 CoT 推理
-
现有痛点:
- CE 损失忽视数值距离: 给定真实分数 1,预测 5 和预测 2 受到的惩罚相同,但它们的数值误差差异巨大
- RAFT 缺少 CoT: 虽然 RAFT 引入平方误差损失改善了回归预测,但没有利用 CoT 推理,而 CoT 对 LLM-as-a-Judge 至关重要
-
CoT 来源的分布偏移: 训练时 CoT 来自 GPT-4 注释,推理时 CoT 来自模型自身生成,两者分布不一致
-
核心矛盾:
- CoT 推理和回归感知训练各有优势,但如何有效地将两者结合是一个开放问题
-
GPT-4 生成的 CoT 与微调后模型自生成的 CoT 之间存在显著分布差异
-
本文要解决什么?
- 如何在 LLM-as-a-Judge 微调中同时利用 CoT 推理能力和回归感知损失
-
如何缓解训练与推理阶段 CoT 来源的分布偏移问题
-
切入角度:
- 将 CE 损失用于 CoT 学习,RAFT 损失用于分数预测,组合形成 CoT-RAFT 目标
-
采用两阶段训练策略,第二阶段使用模型自生成的 CoT 替代外部注释
-
核心idea一句话:
- 通过两阶段自生成 CoT + 回归感知微调,实现 CoT 推理与数值预测的最佳结合
方法详解¶
整体框架¶
TRACT(Two-stage Regression-Aware fine-tuning with CoT)包含两个阶段: - 阶段一: 用 GPT-4 注释的 CoT 和 CoT-RAFT 目标微调种子 LLM,得到模型 \(p_s\) - 阶段二: 用 \(p_s\) 自生成 CoT,替换 GPT-4 的 CoT,重新从种子 LLM 开始训练,得到最终模型 \(p_{\text{tract}}\)
关键设计¶
- CoT-RAIL 推理器(CR Predictor):
- 做什么: 推理时先生成 CoT,再对可能的分数进行加权求和而非 argmax 解码
- 核心思路: \(\hat{y}_{CR}(x) = \sum_{y \in \mathcal{Y}} p(\text{str}(y) | [x, \hat{s}]) \cdot y\),其中 \(\hat{s} \sim p(\cdot|x)\)
-
设计动机: RAIL 加权平均优于 argmax 解码,CoT 提供更好的上下文条件,两者结合效果叠加
-
CoT-RAFT 训练目标:
- 做什么: 将 CE 损失(学 CoT)和 RAFT 损失(学分数预测)加权组合
- 核心思路: \(\ell_{\text{CoT-RAFT}}^{\lambda} = \lambda(\sum_y p(\text{str}(y)|[x,\hat{s}]) \cdot y - y^*)^2 - \log p([\hat{s}, y^*] | x)\)
-
设计动机: CE 保证 CoT 生成质量,RAFT 确保分数预测对数值距离敏感
-
两阶段自生成 CoT 策略:
- 做什么: 阶段一用外部 CoT 训练,阶段二用阶段一模型生成的 CoT 重新训练
- 核心思路: 将 GPT-4 CoT 替换为自身分布下的 CoT,消除训练-推理分布偏移
- 设计动机: 推理时 CoT 由模型自己生成,训练时也用自生成 CoT 可以保持分布一致
损失函数 / 训练策略¶
- 损失函数: CoT-RAFT = λ × (RAIL预测 - 真实分数)² - log p(CoT + 分数 | 输入)
- 超参数 λ: 控制回归损失权重,实验中通过验证集选择
- 训练数据: Feedback Collection(约100K样本),CoT 初始由 GPT-4 生成
- 两阶段均从种子 LLM 初始化: 避免过拟合第一阶段的参数
实验关键数据¶
主实验¶
在 四个 LLM-as-a-Judge 数据集 上测试,使用 Mistral-7B-Instruct-v0.2 和 Llama-3.1-8B-Instruct:
| 方法 | FB Bench (r) | FLASK (r) | Vic. Bench (r) | MT Bench (r) | 平均 (r/ρ) |
|---|---|---|---|---|---|
| CE(无CoT) | 0.890 | 0.355 | 0.429 | 0.279 | 0.488/0.483 |
| CE(有CoT) | 0.872 | 0.413 | 0.463 | 0.480 | 0.557/0.554 |
| RAFT | 0.932 | 0.509 | 0.567 | 0.483 | 0.623/0.605 |
| Prometheus-2-7B | 0.845 | 0.512 | 0.488 | 0.519 | 0.591/0.576 |
| TRACT | 0.931 | 0.518 | 0.593 | 0.555 | 0.650/0.628 |
- TRACT 在平均 Pearson 相关系数上达到 0.650,比 RAFT 提升 0.027,比 Prometheus-2-7B 提升 0.059
- 在 MT Bench 上 TRACT 比 RAFT 提升 0.072 (r) 和 0.060 (ρ)
关键发现¶
- 自生成 CoT 至关重要: 使用 GPT-4 CoT 的变体(A.1)平均 r 仅 0.556,而自生成 CoT 版本(TRACT)达到 0.650,差距巨大
- 两个组件缺一不可: 去掉 RAFT 用纯 CE(A.2)平均 r 降至 0.617;去掉 CoT 用纯 RAFT 平均 r 为 0.623
- TRACT 在 RewardBench 上也表现优异: 虽然仅在逐点评分数据集上训练,在成对比较数据集 RewardBench 上也有竞争力
- 推理开销可控: 与标准 CoT 解码相比,TRACT 仅额外需要对5个候选分数做 RAIL 加权
亮点与洞察¶
- 回归与分类的哲学差异: 本文深刻揭示了将数值预测当作分类任务处理的根本性问题——CE 损失无法感知数值距离
- 自生成 CoT 的重要性: 提供了令人信服的证据,说明训练-推理分布匹配比 CoT 质量更重要
- 模块化设计思路清晰: CoT-RAFT 目标优美地将 CE 和回归损失结合,各司其职
- 代码和模型完全开源: 便于复现和应用
局限性 / 可改进方向¶
- 仅在 LLM-as-a-Judge 任务上验证,未拓展至其他数值预测场景(如 STS-B 回归任务)
- 两阶段训练增加了计算开销,需要生成自 CoT 再重新训练
- CoT 质量对最终性能的影响未深入分析,自生成 CoT 可能引入系统性偏差
- 仅测试了 7B/8B 级别模型,更大或更小模型上的效果未知
- λ 超参数需要验证集调优,不够便捷
相关工作与启发¶
- RAFT (Lukasik et al., 2025): 回归感知微调的基础工作,本文在此基础上引入 CoT
- Prometheus-2 (Kim et al., 2024b): 当前最佳 7B 级 LLM-as-a-Judge,通过模型合并实现
- RAIL (Lukasik et al., 2024): 回归感知推理的零样本版本,使用加权期望替代 argmax
- 启发: 在其他需要数值输出的 LLM 任务(如奖励模型训练、回归标注)中,类似的回归感知+CoT 策略可能同样有效
评分¶
| 维度 | 分数 (1-10) |
|---|---|
| 创新性 | 7 |
| 技术深度 | 8 |
| 实验充分性 | 8 |
| 写作质量 | 8 |
| 实用价值 | 8 |
| 总分 | 7.8 |