跳转至

Inductive Generative Recommendation via Retrieval-based Speculation

会议: AAAI 2026 (Oral)
arXiv: 2410.02939
代码: GitHub
领域: 推荐系统
关键词: 生成式推荐, 归纳推荐, 投机验证, 新物品推荐, 检索增强

一句话总结

本文揭示生成式推荐(GR)模型无法推荐训练中未见过的新物品的关键局限,提出 SpecGR 即插即用框架——用具有归纳能力的 drafter 模型提议候选物品(包括新物品),GR 模型作为 verifier 对候选进行排序验证,结合引导式重起草技术提升验证效率,在三个数据集上取得最佳整体性能。

研究背景与动机

领域现状:生成式推荐(Generative Recommendation)是新兴范式——将物品 tokenize 为离散 token,然后通过自回归方式生成下一个 token 序列作为推荐。这种范式有望超越传统的转导式方法,理论上甚至可以基于语义直接生成新物品。

现有痛点:作者实证发现,GR 模型实际上主要生成训练期间见过的物品,几乎无法推荐未见(unseen)物品。这是因为 GR 模型学习的 token 序列与训练集中的物品 ID 强绑定,面对新物品的 token 组合时缺乏泛化能力。这严重限制了 GR 在冷启动和动态目录场景中的实用性。

核心矛盾:GR 模型擅长排序已知物品(强转导能力),但缺乏推荐新物品的归纳能力(weak inductive ability)。而实际推荐系统中物品目录持续更新,新物品不断涌入。

本文目标:使 GR 模型能够在归纳设置(inductive setting)下推荐新物品,同时保持其对已知物品的强排序能力。

切入角度:借鉴 LLM 中的投机推理(speculative decoding)思想——用一个小而灵活的"起草者"(drafter)快速提议候选,再用一个大而精确的"验证者"(verifier)筛选。这里 drafter 具有归纳能力可以提议新物品,GR 模型作为 verifier 利用其排序能力筛选最佳推荐。

核心 idea:用 drafter-verifier 的投机推理范式解决 GR 模型的归纳局限——drafter 负责"发现"新物品,GR verifier 负责"排序",两者分工协作。

方法详解

整体框架

SpecGR 框架:(1)Drafter 模型基于用户历史生成候选物品列表(包含已有物品和新物品);(2)GR 模型作为 Verifier 对每个候选计算接受概率;(3)接受最高分数的候选作为最终推荐;(4)引导式重起草(guided re-drafting)使候选与 GR 模型的偏好更对齐。

关键设计

  1. Drafter 模型(归纳推荐器):

    • 功能:提议包含新物品的候选列表。
    • 核心思路:提供两种变体:(a)辅助 drafter——使用一个独立的、具有归纳能力的推荐模型(如基于内容特征的模型),灵活性更强;(b)自起草(self-drafting)——利用 GR 模型自身的编码器部分,参数效率更高。关键是 drafter 可以基于物品的语义特征(而非ID)进行匹配,因此天然具有处理新物品的能力。
    • 设计动机:GR 模型的归纳能力缺陷根植于其 token→ID 的绑定机制,难以从架构内部解决。外部 drafter 提供了一条绕过此限制的优雅路径。
  2. GR Verifier(排序验证器):

    • 功能:利用 GR 模型的强排序能力对候选进行筛选。
    • 核心思路:对 drafter 提议的每个候选物品,将其 token 序列输入 GR 模型,计算模型生成该 token 序列的概率作为"接受分数"。分数最高的候选被推荐。这利用了 GR 模型作为"判别器"使用时的排序能力,而非其"生成器"角色。
    • 设计动机:GR 模型虽然不能自主生成新物品的 token 序列,但可以评估给定 token 序列的合理性——这种"验证"比"生成"更容易泛化到新物品。
  3. 引导式重起草(Guided Re-drafting):

    • 功能:使 drafter 的候选与 GR verifier 的偏好更对齐,提升验证效率。
    • 核心思路:在每轮 draft-verify 之后,将 verifier 的反馈(候选的接受概率分布)反馈给 drafter,引导下一轮的候选生成更加集中在 verifier 偏好的区域。这类似于 speculative decoding 中的拒绝采样思想。
    • 设计动机:无引导的 drafter 可能生成很多被 verifier 拒绝的候选,浪费计算。引导机制提高了"命中率"。

损失函数 / 训练策略

Drafter 和 GR Verifier 分别独立训练。Drafter 用标准推荐损失训练(如BPR或交叉熵),GR 模型用标准自回归训练。SpecGR 框架在推理时组合两者,无需联合微调。

实验关键数据

主实验

在三个真实世界数据集上评估。

数据集 指标 SpecGR 最佳GR基线 最佳传统基线 说明
数据集1 HR/NDCG 最佳 次优(无新物品能力) 中等 已有+新物品综合
数据集2 HR/NDCG 最佳 次优 中等 一致改进
数据集3 HR/NDCG 最佳 次优 中等 归纳能力显著

消融实验

配置 性能 说明
SpecGR (辅助drafter) 最佳 灵活性最强
SpecGR (自起草) 接近最佳 参数效率好
仅GR生成 新物品完全失败 无归纳能力
仅Drafter 排序较弱 缺乏GR的精排能力
无引导重起草 次优 验证效率较低

关键发现

  • 实证确认了 GR 模型无法生成新物品的严重局限——这一发现本身具有重要的警示价值。
  • SpecGR 的 drafter-verifier 分工完美结合了两种能力:drafter 的归纳能力 + GR 的排序能力。
  • 引导式重起草显著提高了整体效率。
  • 即插即用特性意味着可以与任何现有 GR 模型组合使用。

亮点与洞察

  • 实证揭示 GR 模型的归纳盲区本身就是重要贡献——纠正了"GR 可以生成新物品"的常见误解。
  • drafter-verifier 范式巧妙借鉴了 LLM 的 speculative decoding,在推荐领域实现了能力互补。
  • 即插即用设计实用性极强——不需要修改现有 GR 模型。

局限与展望

  • Drafter 模型的质量直接影响 SpecGR 的天花板——如果 drafter 提议的候选质量差,verifier 无法挽救。
  • 两阶段推理增加了延迟,可能不适合极低延迟要求的在线推荐。
  • 可以探索 drafter 和 verifier 的联合训练以进一步提升协作效果。

相关工作与启发

  • vs SASRec / BERT4Rec: 传统序列推荐可以处理新物品,但排序能力不如GR。SpecGR 结合了两者优势。
  • vs Speculative Decoding: 在 LLM 中用于加速推理,本文创新性地用于解决推荐的归纳问题。
  • vs 冷启动方法: 传统冷启动方法关注新用户/新物品的特征利用,SpecGR 从生成模型的能力互补角度解决。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 问题发现和解决方案都非常新颖,speculative框架在推荐中首次应用
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+完整消融+两种drafter变体
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义精准,Oral论文水平
  • 价值: ⭐⭐⭐⭐⭐ 对生成式推荐领域有根本性的影响

相关论文