跳转至

FreqRec: Exploiting Inter-Session Information with Frequency-enhanced Dual-Path Networks for Sequential Recommendation

会议: AAAI 2026
arXiv: 2511.06285
代码: https://github.com/AONE-NLP/FreqRec
领域: 推荐系统 / 序列推荐
关键词: 序列推荐, 频域分析, 双路径网络, DFT, 跨session建模, 频域损失

一句话总结

提出FreqRec双路径架构,通过batch维和时间维两条频域路径分别捕获跨session群体节律和用户个体细粒度兴趣,并引入频域一致性损失显式对齐预测与真实频谱,在三个Amazon数据集上NDCG@10最高提升7.38%。

研究背景与动机

  1. 领域现状:序列推荐(SR)旨在根据用户历史交互序列预测下一个感兴趣的物品。近年来Transformer类方法(SASRec、BERT4Rec等)成为主流,但自注意力的全局感受野本质上充当低通滤波器,会平滑掉用户行为中的突变和周期性消费模式。为此,FMLPRec、FEARec、BSARec等方法引入频域模块来恢复高频信号。

  2. 现有痛点

  3. 跨session依赖被忽略:现有频域方法(FMLPRec、BSARec)逐session独立处理,忽略了不同session之间的频谱关联。单个session天然很短,孤立处理加剧了数据稀疏性。论文通过统计共享物品的session间Pearson相关系数,发现存在显著正相关,证实跨session模式的重要性。
  4. 时域目标无法利用频域信息:主流SR模型仅用交叉熵/BPR等时域损失优化,对预测频谱与真实频谱之间的差异没有显式约束,导致周期性和高频行为信号被浪费。

  5. 核心矛盾:频域模块能恢复高频信号,但逐session处理丢失群体级模式;时域损失驱动分类准确但不鼓励频谱特征学习,二者之间存在鸿沟。

  6. 本文要解决什么:同时建模跨session(群体级)和session内(用户级)频域依赖,并通过频域损失弥合预测-真实频谱对齐缺口。

  7. 切入角度:将DFT分别沿batch轴和时间轴施加,构建双路径频域增强网络,配合可学习的复值FreqMLP和频域一致性损失。

  8. 核心idea一句话:用batch维DFT提取群体共性节律 + 时间维DFT捕捉用户个体频谱 + 频域损失对齐预测与真实频谱系数。

方法详解

整体框架

FreqRec由两条并行路径组成:

  • 自注意力分支:编码长程上下文依赖,生成contextual表示 \(\mathbf{X_{SA}}\)
  • FreqNet分支:包含GSA(全局频谱聚合器)和LSR(局部频谱精炼器),二者可并行或串行融合,生成频域增强表示 \(\mathbf{X_F}\)

最终通过门控残差更新将两条路径整合:\(\mathbf{X_{out}} = (1-\alpha) \cdot \mathbf{X_{SA}} + \alpha \cdot \mathbf{X_F}\)

关键设计

1. Frequency-Domain MLP (FreqMLP)

  • 做什么:对DFT产生的复数系数进行可学习的频域滤波
  • 核心思路:将复数分解为实部和虚部,用两组可学习权重矩阵 \(\mathcal{W}_r, \mathcal{W}_i\) 交叉处理,允许实部和虚部之间的信息交互,避免手工设定低通/带通截断频率
  • 设计动机:传统频域方法需要手工选择滤波器类型和截断点,而FreqMLP端到端学习哪些频率该放大、哪些该抑制

2. Global Spectral Aggregator (GSA)

  • 做什么:沿batch轴施加DFT → FreqMLP → IDFT
  • 核心思路:把mini-batch中所有用户序列视为一个信号,在batch维度做傅里叶变换,提取用户群体间共享的消费节律
  • 设计动机:当单个用户历史稀疏时,群体级模式能提供有力补充。跨session共享物品的统计分析证实了这一假设

3. Local Spectral Refiner (LSR)

  • 做什么:沿时间轴施加DFT → FreqMLP → IDFT
  • 核心思路:对每个用户的交互序列在时间维度进行频域分析,捕捉用户特有的周期模式和兴趣突变
  • 设计动机:GSA提供群体共性,LSR负责恢复个体差异化的细粒度动态

4. 双路径融合策略

  • Parallel融合:GSA和LSR独立处理原始嵌入,输出加权求和 \((1-\gamma) \cdot \mathbf{X_{Inter}} + \gamma \cdot \mathbf{X_{Intra}}\)
  • Serial融合:GSA输出叠加到原始嵌入后再输入LSR
  • 实验表明Parallel优于Serial,因为Serial中群体特征会覆盖原始序列信号,造成信息瓶颈

损失函数 / 训练策略

混合损失函数:\(\mathcal{L_{SR}} = (1-\beta) \cdot \mathcal{L_F} + \beta \cdot \mathcal{L_{CE}}\)

  • 交叉熵损失 \(\mathcal{L_{CE}}\):标准分类目标,将下一物品预测视为物品集上的分类任务
  • 频域一致性损失 \(\mathcal{L_F}\):对预测P和目标T分别做DFT,然后在实部和虚部上分别计算距离(L1/L2/混合),显式约束预测的频谱系数与真实频谱对齐
  • 距离函数可选 \(\mathcal{L}_{\mathrm{L1}}\)\(\mathcal{L}_{\mathrm{L2}}\)\(\mathcal{L}_{\mathrm{mix}}\),实验网格搜索确定

实验关键数据

主实验

Amazon三个数据集(Beauty, Sports & Outdoors, Toys & Games),与14个基线对比:

数据集 指标 FreqRec(P) BSARec(最强基线) 提升
Beauty HR@10 0.0989 0.0944 +4.77%
Beauty NDCG@10 0.0601 0.0574 +4.70%
Sports HR@20 0.0859 0.0830 +3.49%
Sports NDCG@20 0.0401 0.0387 +3.62%
Toys HR@20 0.1468 0.1379 +6.45%
Toys NDCG@10 0.0653 0.0610 +7.38%

消融实验

Beauty和Toys数据集上各模块的贡献:

变体 Beauty H@10 Beauty N@10 Toys H@20 Toys N@10
FreqRec (完整) 0.0989 0.0601 0.1468 0.0653
w/o SA 0.0959 0.0587 0.1338 0.0644
w/o GSA 0.0881 0.0537 0.1295 0.0568
w/o LSR 0.0888 0.0533 0.1268 0.0606
w/o GSA+LSR 0.0787 0.0481 0.0956 0.0436
w/o 频域损失 0.0969 0.0582 0.1342 0.0619
w/o 交叉熵损失 0.0807 0.0477 0.0975 0.0434

关键发现

  • 频域方法整体优于纯Transformer方法:BSARec在Beauty上HR@10=0.0944,显著高于MSSR的0.0897
  • 同时去掉GSA和LSR导致超过20%的性能下降,证明双路径频域模块与自注意力互补
  • GSA略比LSR重要:去掉GSA的性能降幅略大于去掉LSR,说明群体级信息对稀疏用户尤其关键
  • 频域损失即插即用:将 \(\mathcal{L_F}\) 接入SASRec、FMLPRec、BSARec等基线,平均提升3.7%~19.5%。FMLPRec的HR@10提升15.21%,BSARec的NDCG@10提升46.45%
  • 稀疏序列鲁棒性:在交互次数仅5-6次的用户上,FreqRec的HR@5和NDCG@5也显著优于BSARec
  • 噪声鲁棒性:在跨域噪声训练(Automotive+CDs+Grocery混合训练,各域独立测试)场景下,FreqRec在三个目标域均优于BSARec和FMLPRec

亮点与洞察

  • batch维DFT是最大创新点:以往频域方法只对时间维做DFT,本文首次在batch维做DFT来建模跨session/跨用户的群体级频域模式,既简洁又有效
  • 频域损失的通用性\(\mathcal{L_F}\) 作为即插即用组件,在多种基线上都能带来显著提升,特别是已有频域模块的模型获益最大,说明时域损失和频域损失提供互补监督信号
  • 可学习复值MLP取代手工滤波器:端到端学习频率响应,避免了滤波器设计的先验知识依赖

局限性 / 可改进方向

  • 三个评测数据集均来自Amazon电商评论场景,领域多样性不足,未在音乐/视频/新闻等场景验证
  • batch维DFT依赖mini-batch的组成,batch size和采样策略可能影响GSA的稳定性
  • 未考虑物品侧信息(文本、图像等多模态特征),可作为进一步增强方向
  • 频域损失的距离函数选择(L1/L2/mix)需要网格搜索,缺乏自适应机制
  • 未与图神经网络类跨session方法(如SR-GNN变体)做直接对比

相关工作与启发

  • FMLPRec / BSARec / FEARec:频域SR的先驱工作,沿时间维做DFT,本文在此基础上拓展到batch维
  • FNet:NLP领域用傅里叶变换替代自注意力的工作,为信号处理工具在深度学习中的应用提供了启发
  • 频域损失在其他领域的应用:图像生成中的频域感知损失(如频域GAN loss)思路类似,值得交叉借鉴
  • 启发:频域分析作为一种正交于注意力机制的序列建模手段,有潜力推广到时间序列预测、事件序列建模等更多场景

评分

  • 新颖性: ⭐⭐⭐⭐ batch维DFT建模跨session信息是有趣的新视角
  • 实验充分度: ⭐⭐⭐⭐ 3个主数据集 + 3个噪声域 + 详细消融 + 稀疏性分析 + 即插即用验证
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,公式推导完整
  • 实用价值: ⭐⭐⭐⭐ 频域损失即插即用,可直接应用于现有SR模型