Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation¶
会议: NeurIPS 2025
arXiv: 2503.04162
代码: GitHub
领域: human_understanding
关键词: 序列推荐, 对比学习, 大语言模型, 语义检索, 数据增强
一句话总结¶
提出SRA-CL框架,利用LLM的语义理解能力构建高质量对比样本对,通过语义检索+可学习样本合成器增强序列推荐的对比学习,以即插即用的方式在4个数据集上取得SOTA。
研究背景与动机¶
对比学习在序列推荐中被广泛使用以缓解数据稀疏问题,但现有方法在构造正样本对时存在两大缺陷:
语义偏差: 随机增强方法(masking、dropout)可能彻底改变序列的用户偏好语义;基于协同信号的聚类方法(如K-means)受限于稀疏ID信号,聚类不精确
不可学习性: 现有方法依赖预定义硬规则(同聚类配对、共享下一物品配对),无法让模型自主学习最优的对比样本构造方式
作者的关键洞察是:文本语义信息(类别、品牌、描述)天然稳定且不受数据量和训练动态影响,可作为更可靠的对比样本来源。而LLM具备强大的语义理解和推理能力,适合生成捕捉用户偏好和物品特征的语义嵌入。
方法详解¶
整体框架¶
SRA-CL是一个模型无关的插件框架,包含三个模块:(1) 基于用户语义检索的跨用户对比学习;(2) 基于物品语义检索的用户内对比学习;(3) 推荐主任务。三者通过加权损失 \(\mathcal{L} = \mathcal{L}_{\text{Rec}} + \alpha \mathcal{L}_{\text{CS}} + \beta \mathcal{L}_{\text{IS}}\) 联合训练。推理时仅使用推荐骨干,无额外LLM开销。
关键设计¶
-
基于LLM的用户偏好语义嵌入: 将用户交互序列(按时间排序的物品属性和描述)构造为prompt \(\mathcal{P}_u\),送入LLM(DeepSeek-V3)推理用户偏好 \(\mathcal{A}_u = \text{LLM}(\mathcal{P}_u)\),再用预训练文本嵌入模型(SimCSE-RoBERTa)编码为固定语义向量 \(\tilde{\mathbf{h}}_u\)。基于余弦相似度检索Top-k相似用户构成候选池 \(\mathcal{N}_u\)。语义嵌入全程固定,不参与训练。
-
可学习对比样本合成器: 不直接选择候选池中的某个用户作为正样本(这种硬规则效果次优),而是通过注意力机制计算每个候选适合度 \(p_{u,u'} = \text{softmax}(\text{LeakyReLU}(\mathbf{a}^\top[\mathbf{W}\tilde{\mathbf{h}}_u \| \mathbf{W}\tilde{\mathbf{h}}_{u'}]))\),然后加权组合候选的推荐模型表示 \(\mathbf{h}_u^+ = \sum_{u' \in \mathcal{N}_u} p_{u,u'} \mathbf{h}_{u'}\)。合成器参数与推荐模型联合训练。
-
物品语义检索的用户内对比学习: 同样用LLM理解物品(提供物品属性+上下文序列信息),编码为语义嵌入 \(\tilde{\mathbf{e}}_v\),检索Top-k相似物品构建候选池 \(\mathcal{N}_v\)。通过随机选择20%物品并用候选池中的相似物品替换,生成两个语义一致的增强视图 \(\mathcal{S}_u', \mathcal{S}_u''\) 作为正样本对。这里不使用可学习合成器(实验发现无额外收益),因为物品语义比用户偏好更可量化。
损失函数 / 训练策略¶
- 推荐损失: 标准交叉熵 \(\mathcal{L}_{\text{Rec}} = -\hat{y}_{v^+} + \log(\sum_v \exp(\hat{y}_v))\)
- 跨用户对比损失(InfoNCE): \(\mathcal{L}_{\text{CS}} = -\log \frac{\exp(\mathbf{h}_u \cdot \mathbf{h}_u^+)}{\exp(\mathbf{h}_u \cdot \mathbf{h}_u^+) + \sum_{\mathbf{h}_u^-} \exp(\mathbf{h}_u \cdot \mathbf{h}_u^-)}\)
- 用户内对比损失: \(\mathcal{L}_{\text{IS}}\) 类似,以两个增强视图表示为正样本对,batch内其余为负样本
- 所有语义嵌入训练前预计算并冻结,不引入推理延迟
实验关键数据¶
主实验¶
| 数据集 | 指标 | SRA-CL | MCLRec(次优CL) | ICSRec | DuoRec | 提升 |
|---|---|---|---|---|---|---|
| Yelp | HR@20 | 0.1282 | 0.1150 | 0.1165 | 0.1173 | +9.29% |
| Yelp | NDCG@20 | 0.0533 | 0.0486 | 0.0495 | 0.0493 | +7.68% |
| Sports | HR@20 | 0.0823 | 0.0736 | 0.0728 | 0.0706 | +11.82% |
| Sports | NDCG@20 | 0.0347 | 0.0318 | 0.0304 | 0.0302 | +9.12% |
| Beauty | HR@20 | 0.1314 | 0.1239 | 0.1205 | 0.1224 | +6.05% |
| Office | HR@20 | 0.1702 | 0.1629 | 0.1643 | 0.1549 | +3.59% |
消融实验¶
| 配置 | 说明 |
|---|---|
| w/o CL | 去除所有对比学习,性能显著下降 |
| w/o \(\mathcal{L}_{\text{CS}}\) | 去除跨用户对比,性能下降明显 |
| w/o \(\mathcal{L}_{\text{IS}}\) | 去除用户内对比,性能略降 |
| w/o learnable synthesizer | 用硬规则替代合成器,性能下降 |
| w/o semantic (用随机增强) | 随机增强替代语义检索,性能退化最大 |
| w/o LLM (用原始文本) | 不用LLM处理直接用原始文本嵌入,性能下降 |
关键发现¶
- Sports数据集提升最大(+11.82% HR@20),可能因为该数据集最稀疏,语义信息收益最大
- 模型无关性验证:SRA-CL分别提升GRU4Rec (+27.3% HR)、SASRec (+15.2%)、DuoRec (+8.3%)
- 可学习合成器比硬规则选择提升约2-4%,表明学习最优融合权重的重要性
- 推理阶段无额外开销,因为语义嵌入预计算且只在训练时使用
亮点与洞察¶
- 巧妙利用LLM作为离线语义编码器而非在线推理组件,避免推理延迟问题
- 双层检索设计(用户级+物品级)覆盖了对比学习的两大范式(inter和intra)
- 可学习合成器将"选择正样本"转化为"加权组合候选",比硬规则更灵活
- 物品语义检索中提供上下文序列信息是重要创新——让LLM理解物品在推荐场景中的角色
局限与展望¶
- LLM调用成本高(DeepSeek-V3 API),大规模数据集上语义嵌入预计算开销大
- 物品上下文序列限制为10条,可能遗漏重要使用模式
- Top-k超参数对性能影响的sensitivity分析不够
- 语义嵌入完全固定,无法随训练动态更新——可探索轻量级微调
- 实验数据集规模中等,工业级场景效果待验证
相关工作与启发¶
- 与LRD/RLMRec等LLM增强推荐方法的区别:SRA-CL专注于改善对比学习而非直接增强推荐模型
- 语义检索增强的思路可推广到其他自监督学习任务(如图表示学习)
- 可学习样本合成器的注意力机制可看作一种soft sample selection策略
评分¶
- 新颖性: ⭐⭐⭐⭐ LLM语义+对比学习的结合新颖,可学习合成器设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、13个baseline、模型无关验证、详细消融
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,图表直观
- 价值: ⭐⭐⭐⭐ 为序列推荐的对比学习提供了新的语义增强范式
相关论文¶
- [NeurIPS 2025] VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models
- [ICLR 2026] CollectiveKV: Decoupling and Sharing Collaborative Information in Sequential Recommendation
- [NeurIPS 2025] CPEP: Contrastive Pose-EMG Pre-training Enhances Gesture Generalization on EMG Signals
- [ICML 2025] FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems
- [ICCV 2025] GestureHYDRA: Semantic Co-speech Gesture Synthesis via Hybrid Modality Diffusion Transformer and Cascaded-Synchronized Retrieval-Augmented Generation