跳转至

TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning

会议: ACL 2025
arXiv: 2503.04381
代码: https://github.com/d223302/TRACT
领域: LLM 推理
关键词: LLM-as-a-Judge, 回归感知微调, Chain-of-Thought, 数值预测, 自生成CoT

一句话总结

提出 TRACT,一种两阶段回归感知微调方法,将 CoT 推理与回归损失(squared error)结合,用于提升 LLM-as-a-Judge 场景中的数值评分精度,显著优于仅用交叉熵训练或仅用回归损失的现有方案。

研究背景与动机

  1. 领域现状:
  2. LLM-as-a-Judge 已成为自动化文本评估的主流范式,模型根据细粒度评分标准对文本输出打分(如1-5分)
  3. 现有方法通常使用交叉熵(CE)损失微调 LLM,让其先生成 CoT 分析再输出分数
  4. RAFT(Regression-Aware Fine-Tuning)已被证明可改善数值回归任务性能,但未考虑 CoT 推理

  5. 现有痛点:

  6. CE 损失忽视数值距离: 给定真实分数 1,预测 5 和预测 2 受到的惩罚相同,但它们的数值误差差异巨大
  7. RAFT 缺少 CoT: 虽然 RAFT 引入平方误差损失改善了回归预测,但没有利用 CoT 推理,而 CoT 对 LLM-as-a-Judge 至关重要
  8. CoT 来源的分布偏移: 训练时 CoT 来自 GPT-4 注释,推理时 CoT 来自模型自身生成,两者分布不一致

  9. 核心矛盾:

  10. CoT 推理和回归感知训练各有优势,但如何有效地将两者结合是一个开放问题
  11. GPT-4 生成的 CoT 与微调后模型自生成的 CoT 之间存在显著分布差异

  12. 本文要解决什么?

  13. 如何在 LLM-as-a-Judge 微调中同时利用 CoT 推理能力和回归感知损失
  14. 如何缓解训练与推理阶段 CoT 来源的分布偏移问题

  15. 切入角度:

  16. 将 CE 损失用于 CoT 学习,RAFT 损失用于分数预测,组合形成 CoT-RAFT 目标
  17. 采用两阶段训练策略,第二阶段使用模型自生成的 CoT 替代外部注释

  18. 核心idea一句话:

  19. 通过两阶段自生成 CoT + 回归感知微调,实现 CoT 推理与数值预测的最佳结合

方法详解

整体框架

TRACT(Two-stage Regression-Aware fine-tuning with CoT)包含两个阶段: - 阶段一: 用 GPT-4 注释的 CoT 和 CoT-RAFT 目标微调种子 LLM,得到模型 \(p_s\) - 阶段二: 用 \(p_s\) 自生成 CoT,替换 GPT-4 的 CoT,重新从种子 LLM 开始训练,得到最终模型 \(p_{\text{tract}}\)

关键设计

  1. CoT-RAIL 推理器(CR Predictor):
  2. 做什么: 推理时先生成 CoT,再对可能的分数进行加权求和而非 argmax 解码
  3. 核心思路: \(\hat{y}_{CR}(x) = \sum_{y \in \mathcal{Y}} p(\text{str}(y) | [x, \hat{s}]) \cdot y\),其中 \(\hat{s} \sim p(\cdot|x)\)
  4. 设计动机: RAIL 加权平均优于 argmax 解码,CoT 提供更好的上下文条件,两者结合效果叠加

  5. CoT-RAFT 训练目标:

  6. 做什么: 将 CE 损失(学 CoT)和 RAFT 损失(学分数预测)加权组合
  7. 核心思路: \(\ell_{\text{CoT-RAFT}}^{\lambda} = \lambda(\sum_y p(\text{str}(y)|[x,\hat{s}]) \cdot y - y^*)^2 - \log p([\hat{s}, y^*] | x)\)
  8. 设计动机: CE 保证 CoT 生成质量,RAFT 确保分数预测对数值距离敏感

  9. 两阶段自生成 CoT 策略:

  10. 做什么: 阶段一用外部 CoT 训练,阶段二用阶段一模型生成的 CoT 重新训练
  11. 核心思路: 将 GPT-4 CoT 替换为自身分布下的 CoT,消除训练-推理分布偏移
  12. 设计动机: 推理时 CoT 由模型自己生成,训练时也用自生成 CoT 可以保持分布一致

损失函数 / 训练策略

  • 损失函数: CoT-RAFT = λ × (RAIL预测 - 真实分数)² - log p(CoT + 分数 | 输入)
  • 超参数 λ: 控制回归损失权重,实验中通过验证集选择
  • 训练数据: Feedback Collection(约100K样本),CoT 初始由 GPT-4 生成
  • 两阶段均从种子 LLM 初始化: 避免过拟合第一阶段的参数

实验关键数据

主实验

四个 LLM-as-a-Judge 数据集 上测试,使用 Mistral-7B-Instruct-v0.2 和 Llama-3.1-8B-Instruct:

方法 FB Bench (r) FLASK (r) Vic. Bench (r) MT Bench (r) 平均 (r/ρ)
CE(无CoT) 0.890 0.355 0.429 0.279 0.488/0.483
CE(有CoT) 0.872 0.413 0.463 0.480 0.557/0.554
RAFT 0.932 0.509 0.567 0.483 0.623/0.605
Prometheus-2-7B 0.845 0.512 0.488 0.519 0.591/0.576
TRACT 0.931 0.518 0.593 0.555 0.650/0.628
  • TRACT 在平均 Pearson 相关系数上达到 0.650,比 RAFT 提升 0.027,比 Prometheus-2-7B 提升 0.059
  • 在 MT Bench 上 TRACT 比 RAFT 提升 0.072 (r) 和 0.060 (ρ)

关键发现

  1. 自生成 CoT 至关重要: 使用 GPT-4 CoT 的变体(A.1)平均 r 仅 0.556,而自生成 CoT 版本(TRACT)达到 0.650,差距巨大
  2. 两个组件缺一不可: 去掉 RAFT 用纯 CE(A.2)平均 r 降至 0.617;去掉 CoT 用纯 RAFT 平均 r 为 0.623
  3. TRACT 在 RewardBench 上也表现优异: 虽然仅在逐点评分数据集上训练,在成对比较数据集 RewardBench 上也有竞争力
  4. 推理开销可控: 与标准 CoT 解码相比,TRACT 仅额外需要对5个候选分数做 RAIL 加权

亮点与洞察

  • 回归与分类的哲学差异: 本文深刻揭示了将数值预测当作分类任务处理的根本性问题——CE 损失无法感知数值距离
  • 自生成 CoT 的重要性: 提供了令人信服的证据,说明训练-推理分布匹配比 CoT 质量更重要
  • 模块化设计思路清晰: CoT-RAFT 目标优美地将 CE 和回归损失结合,各司其职
  • 代码和模型完全开源: 便于复现和应用

局限性 / 可改进方向

  1. 仅在 LLM-as-a-Judge 任务上验证,未拓展至其他数值预测场景(如 STS-B 回归任务)
  2. 两阶段训练增加了计算开销,需要生成自 CoT 再重新训练
  3. CoT 质量对最终性能的影响未深入分析,自生成 CoT 可能引入系统性偏差
  4. 仅测试了 7B/8B 级别模型,更大或更小模型上的效果未知
  5. λ 超参数需要验证集调优,不够便捷

相关工作与启发

  • RAFT (Lukasik et al., 2025): 回归感知微调的基础工作,本文在此基础上引入 CoT
  • Prometheus-2 (Kim et al., 2024b): 当前最佳 7B 级 LLM-as-a-Judge,通过模型合并实现
  • RAIL (Lukasik et al., 2024): 回归感知推理的零样本版本,使用加权期望替代 argmax
  • 启发: 在其他需要数值输出的 LLM 任务(如奖励模型训练、回归标注)中,类似的回归感知+CoT 策略可能同样有效

评分

维度 分数 (1-10)
创新性 7
技术深度 8
实验充分性 8
写作质量 8
实用价值 8
总分 7.8