Inductive Generative Recommendation via Retrieval-based Speculation¶
会议: AAAI 2026 (Oral)
arXiv: 2410.02939
代码: GitHub
领域: 推荐系统
关键词: 生成式推荐, 归纳推荐, 投机验证, 新物品推荐, 检索增强
一句话总结¶
本文揭示生成式推荐(GR)模型无法推荐训练中未见过的新物品的关键局限,提出 SpecGR 即插即用框架——用具有归纳能力的 drafter 模型提议候选物品(包括新物品),GR 模型作为 verifier 对候选进行排序验证,结合引导式重起草技术提升验证效率,在三个数据集上取得最佳整体性能。
研究背景与动机¶
领域现状:生成式推荐(Generative Recommendation)是新兴范式——将物品 tokenize 为离散 token,然后通过自回归方式生成下一个 token 序列作为推荐。这种范式有望超越传统的转导式方法,理论上甚至可以基于语义直接生成新物品。
现有痛点:作者实证发现,GR 模型实际上主要生成训练期间见过的物品,几乎无法推荐未见(unseen)物品。这是因为 GR 模型学习的 token 序列与训练集中的物品 ID 强绑定,面对新物品的 token 组合时缺乏泛化能力。这严重限制了 GR 在冷启动和动态目录场景中的实用性。
核心矛盾:GR 模型擅长排序已知物品(强转导能力),但缺乏推荐新物品的归纳能力(weak inductive ability)。而实际推荐系统中物品目录持续更新,新物品不断涌入。
本文目标:使 GR 模型能够在归纳设置(inductive setting)下推荐新物品,同时保持其对已知物品的强排序能力。
切入角度:借鉴 LLM 中的投机推理(speculative decoding)思想——用一个小而灵活的"起草者"(drafter)快速提议候选,再用一个大而精确的"验证者"(verifier)筛选。这里 drafter 具有归纳能力可以提议新物品,GR 模型作为 verifier 利用其排序能力筛选最佳推荐。
核心 idea:用 drafter-verifier 的投机推理范式解决 GR 模型的归纳局限——drafter 负责"发现"新物品,GR verifier 负责"排序",两者分工协作。
方法详解¶
整体框架¶
SpecGR 框架:(1)Drafter 模型基于用户历史生成候选物品列表(包含已有物品和新物品);(2)GR 模型作为 Verifier 对每个候选计算接受概率;(3)接受最高分数的候选作为最终推荐;(4)引导式重起草(guided re-drafting)使候选与 GR 模型的偏好更对齐。
关键设计¶
-
Drafter 模型(归纳推荐器):
- 功能:提议包含新物品的候选列表。
- 核心思路:提供两种变体:(a)辅助 drafter——使用一个独立的、具有归纳能力的推荐模型(如基于内容特征的模型),灵活性更强;(b)自起草(self-drafting)——利用 GR 模型自身的编码器部分,参数效率更高。关键是 drafter 可以基于物品的语义特征(而非ID)进行匹配,因此天然具有处理新物品的能力。
- 设计动机:GR 模型的归纳能力缺陷根植于其 token→ID 的绑定机制,难以从架构内部解决。外部 drafter 提供了一条绕过此限制的优雅路径。
-
GR Verifier(排序验证器):
- 功能:利用 GR 模型的强排序能力对候选进行筛选。
- 核心思路:对 drafter 提议的每个候选物品,将其 token 序列输入 GR 模型,计算模型生成该 token 序列的概率作为"接受分数"。分数最高的候选被推荐。这利用了 GR 模型作为"判别器"使用时的排序能力,而非其"生成器"角色。
- 设计动机:GR 模型虽然不能自主生成新物品的 token 序列,但可以评估给定 token 序列的合理性——这种"验证"比"生成"更容易泛化到新物品。
-
引导式重起草(Guided Re-drafting):
- 功能:使 drafter 的候选与 GR verifier 的偏好更对齐,提升验证效率。
- 核心思路:在每轮 draft-verify 之后,将 verifier 的反馈(候选的接受概率分布)反馈给 drafter,引导下一轮的候选生成更加集中在 verifier 偏好的区域。这类似于 speculative decoding 中的拒绝采样思想。
- 设计动机:无引导的 drafter 可能生成很多被 verifier 拒绝的候选,浪费计算。引导机制提高了"命中率"。
损失函数 / 训练策略¶
Drafter 和 GR Verifier 分别独立训练。Drafter 用标准推荐损失训练(如BPR或交叉熵),GR 模型用标准自回归训练。SpecGR 框架在推理时组合两者,无需联合微调。
实验关键数据¶
主实验¶
在三个真实世界数据集上评估。
| 数据集 | 指标 | SpecGR | 最佳GR基线 | 最佳传统基线 | 说明 |
|---|---|---|---|---|---|
| 数据集1 | HR/NDCG | 最佳 | 次优(无新物品能力) | 中等 | 已有+新物品综合 |
| 数据集2 | HR/NDCG | 最佳 | 次优 | 中等 | 一致改进 |
| 数据集3 | HR/NDCG | 最佳 | 次优 | 中等 | 归纳能力显著 |
消融实验¶
| 配置 | 性能 | 说明 |
|---|---|---|
| SpecGR (辅助drafter) | 最佳 | 灵活性最强 |
| SpecGR (自起草) | 接近最佳 | 参数效率好 |
| 仅GR生成 | 新物品完全失败 | 无归纳能力 |
| 仅Drafter | 排序较弱 | 缺乏GR的精排能力 |
| 无引导重起草 | 次优 | 验证效率较低 |
关键发现¶
- 实证确认了 GR 模型无法生成新物品的严重局限——这一发现本身具有重要的警示价值。
- SpecGR 的 drafter-verifier 分工完美结合了两种能力:drafter 的归纳能力 + GR 的排序能力。
- 引导式重起草显著提高了整体效率。
- 即插即用特性意味着可以与任何现有 GR 模型组合使用。
亮点与洞察¶
- 实证揭示 GR 模型的归纳盲区本身就是重要贡献——纠正了"GR 可以生成新物品"的常见误解。
- drafter-verifier 范式巧妙借鉴了 LLM 的 speculative decoding,在推荐领域实现了能力互补。
- 即插即用设计实用性极强——不需要修改现有 GR 模型。
局限与展望¶
- Drafter 模型的质量直接影响 SpecGR 的天花板——如果 drafter 提议的候选质量差,verifier 无法挽救。
- 两阶段推理增加了延迟,可能不适合极低延迟要求的在线推荐。
- 可以探索 drafter 和 verifier 的联合训练以进一步提升协作效果。
相关工作与启发¶
- vs SASRec / BERT4Rec: 传统序列推荐可以处理新物品,但排序能力不如GR。SpecGR 结合了两者优势。
- vs Speculative Decoding: 在 LLM 中用于加速推理,本文创新性地用于解决推荐的归纳问题。
- vs 冷启动方法: 传统冷启动方法关注新用户/新物品的特征利用,SpecGR 从生成模型的能力互补角度解决。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 问题发现和解决方案都非常新颖,speculative框架在推荐中首次应用
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+完整消融+两种drafter变体
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义精准,Oral论文水平
- 价值: ⭐⭐⭐⭐⭐ 对生成式推荐领域有根本性的影响
相关论文¶
- [AAAI 2026] Align³GR: Unified Multi-Level Alignment for LLM-based Generative Recommendation
- [ACL 2025] GRAM: Generative Recommendation via Semantic-aware Multi-granular Late Fusion
- [ICML 2025] QuRe: Query-Relevant Retrieval through Hard Negative Sampling in Composed Image Retrieval
- [AAAI 2026] CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
- [AAAI 2026] HyMoERec: Hybrid Mixture-of-Experts for Sequential Recommendation