跳转至

RecLM: Recommendation Instruction Tuning

会议: ACL 2025
arXiv: 2412.19302
代码: https://github.com/HKUDS/RecLM (有)
领域: 推荐系统 / LLM
关键词: 推荐系统, 指令微调, 协同过滤, 冷启动, 强化学习, 用户画像

一句话总结

提出 RecLM,一个模型无关的推荐指令微调框架,通过两轮对话式指令微调将协同过滤信号注入 LLM 生成的用户/商品画像,再用 RLHF(PPO)精炼画像质量,在 MIND/Netflix/工业数据集上作为即插即用组件为 BiasMF/NCF/LightGCN/SGL/SimGCL 一致带来提升,尤其在冷启动场景效果显著。

研究背景与动机

  1. 领域现状:推荐系统主要依赖 ID-based 协同过滤(CF),通过 GNN 等方法优化用户/商品 ID embedding。在数据充足时效果好,但面临冷启动和零样本问题。
  2. 现有痛点:(1) ID-based embedding 对新商品无法生成有意义的表示;(2) 利用文本侧信息(商品描述)作为替代 embedding 的方案受限于数据不完整和质量问题(误导性标签、无关描述);(3) LLM 虽有强大语言理解能力,但缺乏用户-商品交互行为模式的建模能力。
  3. 核心矛盾:LLM 的文本理解能力和协同过滤的交互关系建模是互补的,但如何让 LLM "理解"推荐场景的行为上下文?
  4. 本文要解决什么:(1) 设计 LLM 生成准确用户画像的机制,尤其对冷启动用户/商品;(2) 从噪声特征中蒸馏高质量画像。
  5. 切入角度:将推荐任务转化为 LLM 的指令微调任务,将协同过滤的高阶关系编码为对话 prompt,让 LLM 生成融合了协同信号的用户画像。
  6. 核心 idea:两轮对话指令微调(第一轮生成画像 + 第二轮预测交互)+ RLHF 精炼画像,生成的画像 embedding 即插即用到任意推荐模型。

方法详解

整体框架

文本侧信息投影 → LLM 协同指令微调(两轮对话)→ RL 精炼 → 生成用户/商品画像 → 画像 embedding 融合到下游推荐模型。

关键设计

  1. 文本驱动的用户/商品表示:
  2. 做什么:用文本代替 ID embedding 实现零样本推荐
  3. 核心思路:商品文本描述通过 MLP 投影到低维空间作为初始 item embedding:\(\hat{f}_v = T_{raw}(f)\)。用户 embedding 则结合 ID embedding 和 LLM 生成的画像
  4. 设计动机:文本特征对新商品也可用,克服了 ID embedding 的冷启动限制

  5. 两轮协同指令微调(核心):

  6. 做什么:将协同过滤信号注入 LLM 的画像生成能力
  7. 核心思路:
    • 第一轮——协同画像生成:输入目标用户的历史交互 + 相似用户(LightGCN embedding距离)的交互历史,LLM 生成综合了协同关系的用户画像
    • 第二轮——交互预测监督:基于第一轮画像,提问"用户 u 是否会与商品 v 交互?",ground truth 为 Yes/No。正样本从用户历史中取且在相似用户中也出现的商品,负样本从相似用户历史中取但目标用户未交互的商品
    • 多轮微调策略:两轮对话拼接后,对 \(\mathcal{R}_{fir.}\)(画像)和 \(\mathcal{R}_{sec.}\)(Yes/No)都计算 loss,双重优化画像生成和交互预测
  8. 设计动机:单靠画像生成缺少直接监督信号(无画像 ground truth),第二轮的交互预测提供了间接但明确的监督

  9. RLHF 精炼画像生成:

  10. 做什么:用强化学习解决推理-训练差异和过度平滑问题
  11. 核心思路:
    • Reward Model:基于 LLM 构建奖励模型,用 ChatGPT 生成正样本画像,用多样化 prompt + 画像替换生成负样本,训练 ranking loss
    • PPO 优化:将 LLM 作为 policy,用奖励模型指导优化,加 KL 散度约束防止 reward hacking
  12. 设计动机:指令微调后的画像可能过度依赖协同信息(类似 GNN 过平滑),RL 精炼各性化特征

损失函数 / 训练策略

  • 指令微调:LLaMA-2-7B-Chat 为基座,LoRA 微调,两轮对话同时优化
  • RL:PPO + KL 约束,reward model 用 ranking loss 训练
  • 推荐模型训练:BPR loss,即插即用替换 embedding

实验关键数据

主实验(Full-Shot + Cold-Start)

基线模型 数据集 Base R@20 +RecLM R@20 提升
BiasMF MIND 0.0683 0.0719 +5.3%
BiasMF Netflix 0.0449 0.0531 +18.3%
BiasMF Industrial 0.0078 0.0121 +55.1%
LightGCN MIND 0.0822 0.0842 +2.4%
SimGCL Netflix 0.0662 0.0683 +3.2%

冷启动(Zero-Shot)场景下提升更为显著。

消融实验

配置 MIND R@20 Netflix R@20
RecLM Full 0.0842 0.0683
w/o Profile (只用文本) 0.0809 0.0643
w/o 两轮微调 (单轮) 0.0823 0.0665
w/o RL 精炼 0.0831 0.0672

关键发现

  • 工业数据集提升最大:BiasMF 在 Industrial 上 R@20 从 0.0078→0.0121(+55%),说明在数据稀疏的实际场景中画像增强价值最高
  • 模型无关性强:为 5 种不同推荐模型(从简单 MF 到 GNN)都带来一致提升
  • 两轮微调优于单轮:第二轮的交互预测为画像生成提供了关键监督信号
  • RL 精炼有效:PPO 进一步提升 1-2 个百分点,缓解了协同过平滑问题
  • 冷启动优势明显:在零样本场景下,RecLM 提供了有意义的初始表示

亮点与洞察

  • "推荐=对话"的范式:将协同过滤关系编码为 LLM 对话指令,让 LLM "学会"推荐领域的行为语义。两轮对话的设计巧妙——画像生成->交互预测形成闭环
  • 即插即用设计:画像 embedding 通过简单融合就能接入任何推荐模型,实用性强
  • 工业验证:在匿名工业数据集上的大幅提升增加了可信度

局限性 / 可改进方向

  • LLM 推理开销大(LLaMA-7B 为每个用户生成画像),大规模部署需要考虑效率
  • 依赖 ChatGPT 生成指令微调数据和 RL 正样本,构建成本不低
  • MIND 上 N@20 指标有下降(BiasMF -12.5%, NCF -11.4%),说明画像可能引入某些噪声
  • 仅评估 top-K 推荐,未评估点击率预测等其他推荐任务
  • 相似用户选择基于 LightGCN embedding,对于完全冷启动用户无法获取协同邻居

相关工作与启发

  • vs RLMRec/LLMRec: 其他 LLM 增强推荐方法通常直接用 LLM embedding 或生成文本特征,缺少协同信号注入。RecLM 通过两轮对话微调显式引入高阶协同关系
  • vs KAR: KAR 使用 LLM 增强知识,但不涉及用户画像生成和 RL 精炼
  • vs P5/InstructRec: 这些方法将推荐完全建模为 LLM 序列生成任务,计算成本高。RecLM 只用 LLM 生成画像,推荐仍由高效 CF 模型完成

评分

  • 新颖性: ⭐⭐⭐⭐ 两轮协同指令微调+RLHF 精炼的设计有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 个数据集(含工业)、5 个推荐模型、零样本测试、消融充分
  • 写作质量: ⭐⭐⭐⭐ 结构完整,公式化清晰
  • 价值: ⭐⭐⭐⭐ 即插即用的 LLM 推荐增强方案,对冷启动有直接实用价值