FreqRec: Exploiting Inter-Session Information with Frequency-enhanced Dual-Path Networks for Sequential Recommendation¶
会议: AAAI 2026
arXiv: 2511.06285
代码: https://github.com/AONE-NLP/FreqRec
领域: 推荐系统 / 序列推荐
关键词: 序列推荐, 频域分析, 双路径网络, DFT, 跨session建模, 频域损失
一句话总结¶
提出FreqRec双路径架构,通过batch维和时间维两条频域路径分别捕获跨session群体节律和用户个体细粒度兴趣,并引入频域一致性损失显式对齐预测与真实频谱,在三个Amazon数据集上NDCG@10最高提升7.38%。
研究背景与动机¶
-
领域现状:序列推荐(SR)旨在根据用户历史交互序列预测下一个感兴趣的物品。近年来Transformer类方法(SASRec、BERT4Rec等)成为主流,但自注意力的全局感受野本质上充当低通滤波器,会平滑掉用户行为中的突变和周期性消费模式。为此,FMLPRec、FEARec、BSARec等方法引入频域模块来恢复高频信号。
-
现有痛点:
- 跨session依赖被忽略:现有频域方法(FMLPRec、BSARec)逐session独立处理,忽略了不同session之间的频谱关联。单个session天然很短,孤立处理加剧了数据稀疏性。论文通过统计共享物品的session间Pearson相关系数,发现存在显著正相关,证实跨session模式的重要性。
-
时域目标无法利用频域信息:主流SR模型仅用交叉熵/BPR等时域损失优化,对预测频谱与真实频谱之间的差异没有显式约束,导致周期性和高频行为信号被浪费。
-
核心矛盾:频域模块能恢复高频信号,但逐session处理丢失群体级模式;时域损失驱动分类准确但不鼓励频谱特征学习,二者之间存在鸿沟。
-
本文要解决什么:同时建模跨session(群体级)和session内(用户级)频域依赖,并通过频域损失弥合预测-真实频谱对齐缺口。
-
切入角度:将DFT分别沿batch轴和时间轴施加,构建双路径频域增强网络,配合可学习的复值FreqMLP和频域一致性损失。
-
核心idea一句话:用batch维DFT提取群体共性节律 + 时间维DFT捕捉用户个体频谱 + 频域损失对齐预测与真实频谱系数。
方法详解¶
整体框架¶
FreqRec由两条并行路径组成:
- 自注意力分支:编码长程上下文依赖,生成contextual表示 \(\mathbf{X_{SA}}\)
- FreqNet分支:包含GSA(全局频谱聚合器)和LSR(局部频谱精炼器),二者可并行或串行融合,生成频域增强表示 \(\mathbf{X_F}\)
最终通过门控残差更新将两条路径整合:\(\mathbf{X_{out}} = (1-\alpha) \cdot \mathbf{X_{SA}} + \alpha \cdot \mathbf{X_F}\)。
关键设计¶
1. Frequency-Domain MLP (FreqMLP)
- 做什么:对DFT产生的复数系数进行可学习的频域滤波
- 核心思路:将复数分解为实部和虚部,用两组可学习权重矩阵 \(\mathcal{W}_r, \mathcal{W}_i\) 交叉处理,允许实部和虚部之间的信息交互,避免手工设定低通/带通截断频率
- 设计动机:传统频域方法需要手工选择滤波器类型和截断点,而FreqMLP端到端学习哪些频率该放大、哪些该抑制
2. Global Spectral Aggregator (GSA)
- 做什么:沿batch轴施加DFT → FreqMLP → IDFT
- 核心思路:把mini-batch中所有用户序列视为一个信号,在batch维度做傅里叶变换,提取用户群体间共享的消费节律
- 设计动机:当单个用户历史稀疏时,群体级模式能提供有力补充。跨session共享物品的统计分析证实了这一假设
3. Local Spectral Refiner (LSR)
- 做什么:沿时间轴施加DFT → FreqMLP → IDFT
- 核心思路:对每个用户的交互序列在时间维度进行频域分析,捕捉用户特有的周期模式和兴趣突变
- 设计动机:GSA提供群体共性,LSR负责恢复个体差异化的细粒度动态
4. 双路径融合策略
- Parallel融合:GSA和LSR独立处理原始嵌入,输出加权求和 \((1-\gamma) \cdot \mathbf{X_{Inter}} + \gamma \cdot \mathbf{X_{Intra}}\)
- Serial融合:GSA输出叠加到原始嵌入后再输入LSR
- 实验表明Parallel优于Serial,因为Serial中群体特征会覆盖原始序列信号,造成信息瓶颈
损失函数 / 训练策略¶
混合损失函数:\(\mathcal{L_{SR}} = (1-\beta) \cdot \mathcal{L_F} + \beta \cdot \mathcal{L_{CE}}\)
- 交叉熵损失 \(\mathcal{L_{CE}}\):标准分类目标,将下一物品预测视为物品集上的分类任务
- 频域一致性损失 \(\mathcal{L_F}\):对预测P和目标T分别做DFT,然后在实部和虚部上分别计算距离(L1/L2/混合),显式约束预测的频谱系数与真实频谱对齐
- 距离函数可选 \(\mathcal{L}_{\mathrm{L1}}\)、\(\mathcal{L}_{\mathrm{L2}}\)、\(\mathcal{L}_{\mathrm{mix}}\),实验网格搜索确定
实验关键数据¶
主实验¶
Amazon三个数据集(Beauty, Sports & Outdoors, Toys & Games),与14个基线对比:
| 数据集 | 指标 | FreqRec(P) | BSARec(最强基线) | 提升 |
|---|---|---|---|---|
| Beauty | HR@10 | 0.0989 | 0.0944 | +4.77% |
| Beauty | NDCG@10 | 0.0601 | 0.0574 | +4.70% |
| Sports | HR@20 | 0.0859 | 0.0830 | +3.49% |
| Sports | NDCG@20 | 0.0401 | 0.0387 | +3.62% |
| Toys | HR@20 | 0.1468 | 0.1379 | +6.45% |
| Toys | NDCG@10 | 0.0653 | 0.0610 | +7.38% |
消融实验¶
Beauty和Toys数据集上各模块的贡献:
| 变体 | Beauty H@10 | Beauty N@10 | Toys H@20 | Toys N@10 |
|---|---|---|---|---|
| FreqRec (完整) | 0.0989 | 0.0601 | 0.1468 | 0.0653 |
| w/o SA | 0.0959 | 0.0587 | 0.1338 | 0.0644 |
| w/o GSA | 0.0881 | 0.0537 | 0.1295 | 0.0568 |
| w/o LSR | 0.0888 | 0.0533 | 0.1268 | 0.0606 |
| w/o GSA+LSR | 0.0787 | 0.0481 | 0.0956 | 0.0436 |
| w/o 频域损失 | 0.0969 | 0.0582 | 0.1342 | 0.0619 |
| w/o 交叉熵损失 | 0.0807 | 0.0477 | 0.0975 | 0.0434 |
关键发现¶
- 频域方法整体优于纯Transformer方法:BSARec在Beauty上HR@10=0.0944,显著高于MSSR的0.0897
- 同时去掉GSA和LSR导致超过20%的性能下降,证明双路径频域模块与自注意力互补
- GSA略比LSR重要:去掉GSA的性能降幅略大于去掉LSR,说明群体级信息对稀疏用户尤其关键
- 频域损失即插即用:将 \(\mathcal{L_F}\) 接入SASRec、FMLPRec、BSARec等基线,平均提升3.7%~19.5%。FMLPRec的HR@10提升15.21%,BSARec的NDCG@10提升46.45%
- 稀疏序列鲁棒性:在交互次数仅5-6次的用户上,FreqRec的HR@5和NDCG@5也显著优于BSARec
- 噪声鲁棒性:在跨域噪声训练(Automotive+CDs+Grocery混合训练,各域独立测试)场景下,FreqRec在三个目标域均优于BSARec和FMLPRec
亮点与洞察¶
- batch维DFT是最大创新点:以往频域方法只对时间维做DFT,本文首次在batch维做DFT来建模跨session/跨用户的群体级频域模式,既简洁又有效
- 频域损失的通用性:\(\mathcal{L_F}\) 作为即插即用组件,在多种基线上都能带来显著提升,特别是已有频域模块的模型获益最大,说明时域损失和频域损失提供互补监督信号
- 可学习复值MLP取代手工滤波器:端到端学习频率响应,避免了滤波器设计的先验知识依赖
局限性 / 可改进方向¶
- 三个评测数据集均来自Amazon电商评论场景,领域多样性不足,未在音乐/视频/新闻等场景验证
- batch维DFT依赖mini-batch的组成,batch size和采样策略可能影响GSA的稳定性
- 未考虑物品侧信息(文本、图像等多模态特征),可作为进一步增强方向
- 频域损失的距离函数选择(L1/L2/mix)需要网格搜索,缺乏自适应机制
- 未与图神经网络类跨session方法(如SR-GNN变体)做直接对比
相关工作与启发¶
- FMLPRec / BSARec / FEARec:频域SR的先驱工作,沿时间维做DFT,本文在此基础上拓展到batch维
- FNet:NLP领域用傅里叶变换替代自注意力的工作,为信号处理工具在深度学习中的应用提供了启发
- 频域损失在其他领域的应用:图像生成中的频域感知损失(如频域GAN loss)思路类似,值得交叉借鉴
- 启发:频域分析作为一种正交于注意力机制的序列建模手段,有潜力推广到时间序列预测、事件序列建模等更多场景
评分¶
- 新颖性: ⭐⭐⭐⭐ batch维DFT建模跨session信息是有趣的新视角
- 实验充分度: ⭐⭐⭐⭐ 3个主数据集 + 3个噪声域 + 详细消融 + 稀疏性分析 + 即插即用验证
- 写作质量: ⭐⭐⭐⭐ 动机清晰,公式推导完整
- 实用价值: ⭐⭐⭐⭐ 频域损失即插即用,可直接应用于现有SR模型