TRACT: Regression-Aware Fine-tuning Meets Chain-of-Thought Reasoning¶

会议: ACL 2025
arXiv: 2503.04381
代码: https://github.com/d223302/TRACT
领域: LLM 推理
关键词: LLM-as-a-Judge, 回归感知微调, Chain-of-Thought, 数值预测, 自生成CoT

一句话总结¶

提出 TRACT，一种两阶段回归感知微调方法，将 CoT 推理与回归损失（squared error）结合，用于提升 LLM-as-a-Judge 场景中的数值评分精度，显著优于仅用交叉熵训练或仅用回归损失的现有方案。

研究背景与动机¶

领域现状:
LLM-as-a-Judge 已成为自动化文本评估的主流范式，模型根据细粒度评分标准对文本输出打分（如1-5分）
现有方法通常使用交叉熵（CE）损失微调 LLM，让其先生成 CoT 分析再输出分数
RAFT（Regression-Aware Fine-Tuning）已被证明可改善数值回归任务性能，但未考虑 CoT 推理
现有痛点:
CE 损失忽视数值距离: 给定真实分数 1，预测 5 和预测 2 受到的惩罚相同，但它们的数值误差差异巨大
RAFT 缺少 CoT: 虽然 RAFT 引入平方误差损失改善了回归预测，但没有利用 CoT 推理，而 CoT 对 LLM-as-a-Judge 至关重要
CoT 来源的分布偏移: 训练时 CoT 来自 GPT-4 注释，推理时 CoT 来自模型自身生成，两者分布不一致
核心矛盾:
CoT 推理和回归感知训练各有优势，但如何有效地将两者结合是一个开放问题
GPT-4 生成的 CoT 与微调后模型自生成的 CoT 之间存在显著分布差异
本文要解决什么？
如何在 LLM-as-a-Judge 微调中同时利用 CoT 推理能力和回归感知损失
如何缓解训练与推理阶段 CoT 来源的分布偏移问题
切入角度:
将 CE 损失用于 CoT 学习，RAFT 损失用于分数预测，组合形成 CoT-RAFT 目标
采用两阶段训练策略，第二阶段使用模型自生成的 CoT 替代外部注释
核心idea一句话:
通过两阶段自生成 CoT + 回归感知微调，实现 CoT 推理与数值预测的最佳结合

方法详解¶

整体框架¶

TRACT（Two-stage Regression-Aware fine-tuning with CoT）包含两个阶段： - 阶段一: 用 GPT-4 注释的 CoT 和 CoT-RAFT 目标微调种子 LLM，得到模型 \(p_s\) - 阶段二: 用 \(p_s\) 自生成 CoT，替换 GPT-4 的 CoT，重新从种子 LLM 开始训练，得到最终模型 \(p_{\text{tract}}\)

关键设计¶

CoT-RAIL 推理器（CR Predictor）:
做什么: 推理时先生成 CoT，再对可能的分数进行加权求和而非 argmax 解码
核心思路: \(\hat{y}_{CR}(x) = \sum_{y \in \mathcal{Y}} p(\text{str}(y) | [x, \hat{s}]) \cdot y\)，其中 \(\hat{s} \sim p(\cdot|x)\)
设计动机: RAIL 加权平均优于 argmax 解码，CoT 提供更好的上下文条件，两者结合效果叠加
CoT-RAFT 训练目标:
做什么: 将 CE 损失（学 CoT）和 RAFT 损失（学分数预测）加权组合
核心思路: \(\ell_{\text{CoT-RAFT}}^{\lambda} = \lambda(\sum_y p(\text{str}(y)|[x,\hat{s}]) \cdot y - y^*)^2 - \log p([\hat{s}, y^*] | x)\)
设计动机: CE 保证 CoT 生成质量，RAFT 确保分数预测对数值距离敏感
两阶段自生成 CoT 策略:
做什么: 阶段一用外部 CoT 训练，阶段二用阶段一模型生成的 CoT 重新训练
核心思路: 将 GPT-4 CoT 替换为自身分布下的 CoT，消除训练-推理分布偏移
设计动机: 推理时 CoT 由模型自己生成，训练时也用自生成 CoT 可以保持分布一致

损失函数 / 训练策略¶

损失函数: CoT-RAFT = λ × (RAIL预测 - 真实分数)² - log p(CoT + 分数 | 输入)
超参数 λ: 控制回归损失权重，实验中通过验证集选择
训练数据: Feedback Collection（约100K样本），CoT 初始由 GPT-4 生成
两阶段均从种子 LLM 初始化: 避免过拟合第一阶段的参数

实验关键数据¶

主实验¶

在 四个 LLM-as-a-Judge 数据集 上测试，使用 Mistral-7B-Instruct-v0.2 和 Llama-3.1-8B-Instruct：

方法	FB Bench (r)	FLASK (r)	Vic. Bench (r)	MT Bench (r)	平均 (r/ρ)
CE（无CoT）	0.890	0.355	0.429	0.279	0.488/0.483
CE（有CoT）	0.872	0.413	0.463	0.480	0.557/0.554
RAFT	0.932	0.509	0.567	0.483	0.623/0.605
Prometheus-2-7B	0.845	0.512	0.488	0.519	0.591/0.576
TRACT	0.931	0.518	0.593	0.555	0.650/0.628

TRACT 在平均 Pearson 相关系数上达到 0.650，比 RAFT 提升 0.027，比 Prometheus-2-7B 提升 0.059
在 MT Bench 上 TRACT 比 RAFT 提升 0.072 (r) 和 0.060 (ρ)

关键发现¶

自生成 CoT 至关重要: 使用 GPT-4 CoT 的变体（A.1）平均 r 仅 0.556，而自生成 CoT 版本（TRACT）达到 0.650，差距巨大
两个组件缺一不可: 去掉 RAFT 用纯 CE（A.2）平均 r 降至 0.617；去掉 CoT 用纯 RAFT 平均 r 为 0.623
TRACT 在 RewardBench 上也表现优异: 虽然仅在逐点评分数据集上训练，在成对比较数据集 RewardBench 上也有竞争力
推理开销可控: 与标准 CoT 解码相比，TRACT 仅额外需要对5个候选分数做 RAIL 加权

亮点与洞察¶

回归与分类的哲学差异: 本文深刻揭示了将数值预测当作分类任务处理的根本性问题——CE 损失无法感知数值距离
自生成 CoT 的重要性: 提供了令人信服的证据，说明训练-推理分布匹配比 CoT 质量更重要
模块化设计思路清晰: CoT-RAFT 目标优美地将 CE 和回归损失结合，各司其职
代码和模型完全开源: 便于复现和应用

局限性 / 可改进方向¶

仅在 LLM-as-a-Judge 任务上验证，未拓展至其他数值预测场景（如 STS-B 回归任务）
两阶段训练增加了计算开销，需要生成自 CoT 再重新训练
CoT 质量对最终性能的影响未深入分析，自生成 CoT 可能引入系统性偏差
仅测试了 7B/8B 级别模型，更大或更小模型上的效果未知
λ 超参数需要验证集调优，不够便捷

评分¶

维度	分数 (1-10)
创新性	7
技术深度	8
实验充分性	8
写作质量	8
实用价值	8
总分	7.8