Think before Recommendation: Autonomous Reasoning-enhanced Recommender¶

会议: NeurIPS 2025
arXiv: 2510.23077
代码: https://github.com/AkaliKong/RecZero (有)
领域: 推荐系统 / LLM推理
关键词: LLM, Recommender System, Reinforcement Learning, GRPO, Rating Prediction, Chain-of-Thought

一句话总结¶

提出 RecZero（纯 RL 范式）和 RecOne（SFT+RL 混合范式），抛弃传统的 teacher-student 蒸馏方法，用 GRPO 强化学习直接训练单个 LLM 自主发展推理能力进行评分预测，通过结构化 "Think-before-Recommendation" 模板引导分步推理（分析用户→分析物品→匹配→评分），在 4 个数据集上显著超越现有基线。

研究背景与动机¶

领域现状：利用 LLM 推理能力增强推荐系统的评分预测是近期热点。主流做法是 distillation：用 ChatGPT 等强 LLM 作为 teacher 生成推理过程，然后 SFT 训练 student 模型模仿。
现有痛点：(a) Teacher 模型缺乏推荐领域知识，生成的推理链与评分预测目标不对齐；(b) 生成高质量推理数据成本高（API调用/人工标注）且为静态数据，student 无法主动优化；(c) SFT 只学到表面模式而非真正推理能力，对新场景泛化差。
核心矛盾：如何让 LLM 自主习得推荐推理能力，而非被动模仿可能不准确的 teacher 推理？
本文要解决什么？：用 RL（而非蒸馏）训练单个 LLM，让它在推荐推理、用户分析、物品分析、匹配评估四个步骤上联合优化。
切入角度：受 DeepSeek-R1-Zero 启发——纯 RL 训练即可让 LLM 涌现推理能力，无需 teacher 数据。
核心 idea 一句话：用 GRPO + 规则奖励直接训练 LLM 自主发展评分预测的分步推理能力，绕过 teacher-student 蒸馏。

方法详解¶

整体框架¶

RecZero 是纯 RL 范式：给定用户历史和目标物品，LLM 生成多条推理轨迹，通过规则奖励计算优势函数，用 GRPO 优化策略。RecOne 在此基础上先用少量高质量推理数据做 cold-start SFT，再接 RL。

关键设计¶

"Think-before-Recommendation" Prompt 构建:
做什么：设计结构化推理模板，将评分预测分解为四步
核心思路：
- <analyze user>...</analyze user>: 从用户历史交互中提取偏好
- <analyze item>...</analyze item>: 总结目标物品特征
- <match>...</match>: 评估用户-物品兼容性
- <rate>...</rate>: 生成最终评分
设计动机：将推理过程显式分步（chain-of-thought），使 RL 可以对整个推理链联合优化
Rule-based Reward Modeling:
做什么：设计格式奖励 + 准确性奖励
核心思路：
- 格式奖励 \(R_{format}\)：如果输出遵循指定标签格式 +0.5，否则 -0.5
- 准确性奖励 \(R_{answer} = 1 - |y - \hat{y}| / \text{max\_error}\)：预测越接近真实评分奖励越高
- 总奖励 \(R = R_{format} + R_{answer}\)
设计动机：简单规则即可提供有效训练信号，无需训练额外的 reward model
GRPO 策略优化:
做什么：组内相对策略优化，从多条轨迹中学习
核心思路：对每个输入采样 G 条推理轨迹，计算组内相对优势 \(\hat{A}_i = (R_i - \text{mean})/\text{std}\)，用 PPO-clip 目标优化
设计动机：无需额外 value network，利用组内比较得到优势信号
RecOne 冷启动 SFT:
做什么：先用少量高质量推理样本做 SFT 初始化
核心思路：用 DeepSeek-R1 生成推理轨迹，预测正确的直接用，预测错误的让 teacher 看着正确答案重新推理（rationalized）
设计动机：缩小预训练 LLM 和推荐领域的 domain gap，加速 RL 收敛

损失函数 / 训练策略¶

RecZero: 纯 GRPO 训练，无 SFT 阶段
RecOne: 先 SFT on cold-start 数据，再 GRPO 继续优化
支持连续评分预测（直接输出小数），避免了整数评分 + logit 加权解码的复杂性

实验关键数据¶

主实验¶

数据集	指标	RecZero	RecOne	Reason4Rec (SOTA)	EXP3RT
Amazon-book	MAE	0.623	0.601	0.712	0.695
Amazon-music	MAE	0.584	0.567	0.683	0.671
Yelp	MAE	0.721	0.698	0.803	0.792
IMDb	MAE	0.495	0.478	0.562	0.551

消融实验¶

配置	关键发现
无结构化推理模板	推理质量下降，预测不稳定
仅格式奖励	格式规范但预测不准
仅准确性奖励	格式混乱影响推理质量
RecOne vs RecZero	RecOne 收敛更快，最终性能略好
RecOne w/o RL (仅SFT)	明显弱于加了 RL 的版本

关键发现¶

RecZero 纯 RL 即可超越所有蒸馏方法，验证了 RL 范式的优越性
RecOne 的 cold-start SFT 帮助 RL 更快收敛，最终效果最好
推理轨迹分析：RecZero 自主发展出的推理比 teacher 生成的更贴合推荐任务
直接连续评分预测比 logit-weighted 整数解码更简单有效

亮点与洞察¶

受 DeepSeek-R1-Zero 启发的推荐范式革新：将纯 RL 涌现推理的思路迁移到推荐领域，证明无需 teacher 数据也能发展推理能力。这是 RL for reasoning 在推荐系统的首次成功应用。
结构化推理模板巧妙：四步分解（用户分析→物品分析→匹配→评分）既利用了 CoT 思想，又为 RL 提供了清晰的优化目标。
简单规则奖励即有效：无需训练 reward model，MAE 差异直接做奖励信号。

局限性 / 可改进方向¶

仅评分预测任务：未验证在 CTR 预测、序列推荐等其他推荐任务上的效果
计算成本：RL 训练比 SFT 需要更多样本（每条输入采样 G 条轨迹），GPU 时间较长
LLM 基座依赖：效果可能与基座模型强相关，对小模型是否有效未充分验证
可改进：扩展到 CTR/序列推荐；探索在线 RL（持续学习用户偏好变化）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在推荐系统中用纯 RL 替代蒸馏实现推理增强
实验充分度: ⭐⭐⭐⭐ 4 数据集 + 多种基线 + 消融 + 成本分析
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述详细
价值: ⭐⭐⭐⭐⭐ 为 LLM 推荐系统开辟了 RL 新范式