Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation¶

会议: NeurIPS 2025
arXiv: 2503.04162
代码: GitHub
领域: human_understanding
关键词: 序列推荐, 对比学习, 大语言模型, 语义检索, 数据增强

一句话总结¶

提出SRA-CL框架，利用LLM的语义理解能力构建高质量对比样本对，通过语义检索+可学习样本合成器增强序列推荐的对比学习，以即插即用的方式在4个数据集上取得SOTA。

研究背景与动机¶

对比学习在序列推荐中被广泛使用以缓解数据稀疏问题，但现有方法在构造正样本对时存在两大缺陷：

语义偏差: 随机增强方法（masking、dropout）可能彻底改变序列的用户偏好语义；基于协同信号的聚类方法（如K-means）受限于稀疏ID信号，聚类不精确

不可学习性: 现有方法依赖预定义硬规则（同聚类配对、共享下一物品配对），无法让模型自主学习最优的对比样本构造方式

作者的关键洞察是：文本语义信息（类别、品牌、描述）天然稳定且不受数据量和训练动态影响，可作为更可靠的对比样本来源。而LLM具备强大的语义理解和推理能力，适合生成捕捉用户偏好和物品特征的语义嵌入。

方法详解¶

整体框架¶

SRA-CL是一个模型无关的插件框架，包含三个模块：(1) 基于用户语义检索的跨用户对比学习；(2) 基于物品语义检索的用户内对比学习；(3) 推荐主任务。三者通过加权损失 \(\mathcal{L} = \mathcal{L}_{\text{Rec}} + \alpha \mathcal{L}_{\text{CS}} + \beta \mathcal{L}_{\text{IS}}\) 联合训练。推理时仅使用推荐骨干，无额外LLM开销。

关键设计¶

基于LLM的用户偏好语义嵌入: 将用户交互序列（按时间排序的物品属性和描述）构造为prompt \(\mathcal{P}_u\)，送入LLM（DeepSeek-V3）推理用户偏好 \(\mathcal{A}_u = \text{LLM}(\mathcal{P}_u)\)，再用预训练文本嵌入模型（SimCSE-RoBERTa）编码为固定语义向量 \(\tilde{\mathbf{h}}_u\)。基于余弦相似度检索Top-k相似用户构成候选池 \(\mathcal{N}_u\)。语义嵌入全程固定，不参与训练。
可学习对比样本合成器: 不直接选择候选池中的某个用户作为正样本（这种硬规则效果次优），而是通过注意力机制计算每个候选适合度 \(p_{u,u'} = \text{softmax}(\text{LeakyReLU}(\mathbf{a}^\top[\mathbf{W}\tilde{\mathbf{h}}_u \| \mathbf{W}\tilde{\mathbf{h}}_{u'}]))\)，然后加权组合候选的推荐模型表示 \(\mathbf{h}_u^+ = \sum_{u' \in \mathcal{N}_u} p_{u,u'} \mathbf{h}_{u'}\)。合成器参数与推荐模型联合训练。
物品语义检索的用户内对比学习: 同样用LLM理解物品（提供物品属性+上下文序列信息），编码为语义嵌入 \(\tilde{\mathbf{e}}_v\)，检索Top-k相似物品构建候选池 \(\mathcal{N}_v\)。通过随机选择20%物品并用候选池中的相似物品替换，生成两个语义一致的增强视图 \(\mathcal{S}_u', \mathcal{S}_u''\) 作为正样本对。这里不使用可学习合成器（实验发现无额外收益），因为物品语义比用户偏好更可量化。

损失函数 / 训练策略¶

推荐损失: 标准交叉熵 \(\mathcal{L}_{\text{Rec}} = -\hat{y}_{v^+} + \log(\sum_v \exp(\hat{y}_v))\)
跨用户对比损失（InfoNCE）: \(\mathcal{L}_{\text{CS}} = -\log \frac{\exp(\mathbf{h}_u \cdot \mathbf{h}_u^+)}{\exp(\mathbf{h}_u \cdot \mathbf{h}_u^+) + \sum_{\mathbf{h}_u^-} \exp(\mathbf{h}_u \cdot \mathbf{h}_u^-)}\)
用户内对比损失: \(\mathcal{L}_{\text{IS}}\) 类似，以两个增强视图表示为正样本对，batch内其余为负样本
所有语义嵌入训练前预计算并冻结，不引入推理延迟

实验关键数据¶

主实验¶

数据集	指标	SRA-CL	MCLRec(次优CL)	ICSRec	DuoRec	提升
Yelp	HR@20	0.1282	0.1150	0.1165	0.1173	+9.29%
Yelp	NDCG@20	0.0533	0.0486	0.0495	0.0493	+7.68%
Sports	HR@20	0.0823	0.0736	0.0728	0.0706	+11.82%
Sports	NDCG@20	0.0347	0.0318	0.0304	0.0302	+9.12%
Beauty	HR@20	0.1314	0.1239	0.1205	0.1224	+6.05%
Office	HR@20	0.1702	0.1629	0.1643	0.1549	+3.59%

消融实验¶

配置	说明
w/o CL	去除所有对比学习，性能显著下降
w/o \(\mathcal{L}_{\text{CS}}\)	去除跨用户对比，性能下降明显
w/o \(\mathcal{L}_{\text{IS}}\)	去除用户内对比，性能略降
w/o learnable synthesizer	用硬规则替代合成器，性能下降
w/o semantic (用随机增强)	随机增强替代语义检索，性能退化最大
w/o LLM (用原始文本)	不用LLM处理直接用原始文本嵌入，性能下降

关键发现¶

Sports数据集提升最大（+11.82% HR@20），可能因为该数据集最稀疏，语义信息收益最大
模型无关性验证：SRA-CL分别提升GRU4Rec (+27.3% HR)、SASRec (+15.2%)、DuoRec (+8.3%)
可学习合成器比硬规则选择提升约2-4%，表明学习最优融合权重的重要性
推理阶段无额外开销，因为语义嵌入预计算且只在训练时使用

亮点与洞察¶

巧妙利用LLM作为离线语义编码器而非在线推理组件，避免推理延迟问题
双层检索设计（用户级+物品级）覆盖了对比学习的两大范式（inter和intra）
可学习合成器将"选择正样本"转化为"加权组合候选"，比硬规则更灵活
物品语义检索中提供上下文序列信息是重要创新——让LLM理解物品在推荐场景中的角色

局限与展望¶

LLM调用成本高（DeepSeek-V3 API），大规模数据集上语义嵌入预计算开销大
物品上下文序列限制为10条，可能遗漏重要使用模式
Top-k超参数对性能影响的sensitivity分析不够
语义嵌入完全固定，无法随训练动态更新——可探索轻量级微调
实验数据集规模中等，工业级场景效果待验证

评分¶

新颖性: ⭐⭐⭐⭐ LLM语义+对比学习的结合新颖，可学习合成器设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 4个数据集、13个baseline、模型无关验证、详细消融
写作质量: ⭐⭐⭐⭐ 问题动机清晰，图表直观
价值: ⭐⭐⭐⭐ 为序列推荐的对比学习提供了新的语义增强范式