FreqRec: Exploiting Inter-Session Information with Frequency-enhanced Dual-Path Networks for Sequential Recommendation¶

会议: AAAI 2026
arXiv: 2511.06285
代码: https://github.com/AONE-NLP/FreqRec
领域: 推荐系统 / 序列推荐
关键词: 序列推荐, 频域分析, 双路径网络, DFT, 跨session建模, 频域损失

一句话总结¶

提出FreqRec双路径架构，通过batch维和时间维两条频域路径分别捕获跨session群体节律和用户个体细粒度兴趣，并引入频域一致性损失显式对齐预测与真实频谱，在三个Amazon数据集上NDCG@10最高提升7.38%。

研究背景与动机¶

领域现状：序列推荐（SR）旨在根据用户历史交互序列预测下一个感兴趣的物品。近年来Transformer类方法（SASRec、BERT4Rec等）成为主流，但自注意力的全局感受野本质上充当低通滤波器，会平滑掉用户行为中的突变和周期性消费模式。为此，FMLPRec、FEARec、BSARec等方法引入频域模块来恢复高频信号。
现有痛点：
跨session依赖被忽略：现有频域方法（FMLPRec、BSARec）逐session独立处理，忽略了不同session之间的频谱关联。单个session天然很短，孤立处理加剧了数据稀疏性。论文通过统计共享物品的session间Pearson相关系数，发现存在显著正相关，证实跨session模式的重要性。
时域目标无法利用频域信息：主流SR模型仅用交叉熵/BPR等时域损失优化，对预测频谱与真实频谱之间的差异没有显式约束，导致周期性和高频行为信号被浪费。
核心矛盾：频域模块能恢复高频信号，但逐session处理丢失群体级模式；时域损失驱动分类准确但不鼓励频谱特征学习，二者之间存在鸿沟。
本文要解决什么：同时建模跨session（群体级）和session内（用户级）频域依赖，并通过频域损失弥合预测-真实频谱对齐缺口。
切入角度：将DFT分别沿batch轴和时间轴施加，构建双路径频域增强网络，配合可学习的复值FreqMLP和频域一致性损失。
核心idea一句话：用batch维DFT提取群体共性节律 + 时间维DFT捕捉用户个体频谱 + 频域损失对齐预测与真实频谱系数。

方法详解¶

整体框架¶

FreqRec由两条并行路径组成：

自注意力分支：编码长程上下文依赖，生成contextual表示 \(\mathbf{X_{SA}}\)
FreqNet分支：包含GSA（全局频谱聚合器）和LSR（局部频谱精炼器），二者可并行或串行融合，生成频域增强表示 \(\mathbf{X_F}\)

最终通过门控残差更新将两条路径整合：\(\mathbf{X_{out}} = (1-\alpha) \cdot \mathbf{X_{SA}} + \alpha \cdot \mathbf{X_F}\)。

关键设计¶

1. Frequency-Domain MLP (FreqMLP)

做什么：对DFT产生的复数系数进行可学习的频域滤波
核心思路：将复数分解为实部和虚部，用两组可学习权重矩阵 \(\mathcal{W}_r, \mathcal{W}_i\) 交叉处理，允许实部和虚部之间的信息交互，避免手工设定低通/带通截断频率
设计动机：传统频域方法需要手工选择滤波器类型和截断点，而FreqMLP端到端学习哪些频率该放大、哪些该抑制

2. Global Spectral Aggregator (GSA)

做什么：沿batch轴施加DFT → FreqMLP → IDFT
核心思路：把mini-batch中所有用户序列视为一个信号，在batch维度做傅里叶变换，提取用户群体间共享的消费节律
设计动机：当单个用户历史稀疏时，群体级模式能提供有力补充。跨session共享物品的统计分析证实了这一假设

3. Local Spectral Refiner (LSR)

做什么：沿时间轴施加DFT → FreqMLP → IDFT
核心思路：对每个用户的交互序列在时间维度进行频域分析，捕捉用户特有的周期模式和兴趣突变
设计动机：GSA提供群体共性，LSR负责恢复个体差异化的细粒度动态

4. 双路径融合策略

Parallel融合：GSA和LSR独立处理原始嵌入，输出加权求和 \((1-\gamma) \cdot \mathbf{X_{Inter}} + \gamma \cdot \mathbf{X_{Intra}}\)
Serial融合：GSA输出叠加到原始嵌入后再输入LSR
实验表明Parallel优于Serial，因为Serial中群体特征会覆盖原始序列信号，造成信息瓶颈

损失函数 / 训练策略¶

混合损失函数：\(\mathcal{L_{SR}} = (1-\beta) \cdot \mathcal{L_F} + \beta \cdot \mathcal{L_{CE}}\)

交叉熵损失 \(\mathcal{L_{CE}}\)：标准分类目标，将下一物品预测视为物品集上的分类任务
频域一致性损失 \(\mathcal{L_F}\)：对预测P和目标T分别做DFT，然后在实部和虚部上分别计算距离（L1/L2/混合），显式约束预测的频谱系数与真实频谱对齐
距离函数可选 \(\mathcal{L}_{\mathrm{L1}}\)、\(\mathcal{L}_{\mathrm{L2}}\)、\(\mathcal{L}_{\mathrm{mix}}\)，实验网格搜索确定

实验关键数据¶

主实验¶

Amazon三个数据集（Beauty, Sports & Outdoors, Toys & Games），与14个基线对比：

数据集	指标	FreqRec(P)	BSARec(最强基线)	提升
Beauty	HR@10	0.0989	0.0944	+4.77%
Beauty	NDCG@10	0.0601	0.0574	+4.70%
Sports	HR@20	0.0859	0.0830	+3.49%
Sports	NDCG@20	0.0401	0.0387	+3.62%
Toys	HR@20	0.1468	0.1379	+6.45%
Toys	NDCG@10	0.0653	0.0610	+7.38%

消融实验¶

Beauty和Toys数据集上各模块的贡献：

变体	Beauty H@10	Beauty N@10	Toys H@20	Toys N@10
FreqRec (完整)	0.0989	0.0601	0.1468	0.0653
w/o SA	0.0959	0.0587	0.1338	0.0644
w/o GSA	0.0881	0.0537	0.1295	0.0568
w/o LSR	0.0888	0.0533	0.1268	0.0606
w/o GSA+LSR	0.0787	0.0481	0.0956	0.0436
w/o 频域损失	0.0969	0.0582	0.1342	0.0619
w/o 交叉熵损失	0.0807	0.0477	0.0975	0.0434

关键发现¶

频域方法整体优于纯Transformer方法：BSARec在Beauty上HR@10=0.0944，显著高于MSSR的0.0897
同时去掉GSA和LSR导致超过20%的性能下降，证明双路径频域模块与自注意力互补
GSA略比LSR重要：去掉GSA的性能降幅略大于去掉LSR，说明群体级信息对稀疏用户尤其关键
频域损失即插即用：将 \(\mathcal{L_F}\) 接入SASRec、FMLPRec、BSARec等基线，平均提升3.7%~19.5%。FMLPRec的HR@10提升15.21%，BSARec的NDCG@10提升46.45%
稀疏序列鲁棒性：在交互次数仅5-6次的用户上，FreqRec的HR@5和NDCG@5也显著优于BSARec
噪声鲁棒性：在跨域噪声训练（Automotive+CDs+Grocery混合训练，各域独立测试）场景下，FreqRec在三个目标域均优于BSARec和FMLPRec

亮点与洞察¶

batch维DFT是最大创新点：以往频域方法只对时间维做DFT，本文首次在batch维做DFT来建模跨session/跨用户的群体级频域模式，既简洁又有效
频域损失的通用性：\(\mathcal{L_F}\) 作为即插即用组件，在多种基线上都能带来显著提升，特别是已有频域模块的模型获益最大，说明时域损失和频域损失提供互补监督信号
可学习复值MLP取代手工滤波器：端到端学习频率响应，避免了滤波器设计的先验知识依赖

局限性 / 可改进方向¶

三个评测数据集均来自Amazon电商评论场景，领域多样性不足，未在音乐/视频/新闻等场景验证
batch维DFT依赖mini-batch的组成，batch size和采样策略可能影响GSA的稳定性
未考虑物品侧信息（文本、图像等多模态特征），可作为进一步增强方向
频域损失的距离函数选择（L1/L2/mix）需要网格搜索，缺乏自适应机制
未与图神经网络类跨session方法（如SR-GNN变体）做直接对比

评分¶

新颖性: ⭐⭐⭐⭐ batch维DFT建模跨session信息是有趣的新视角
实验充分度: ⭐⭐⭐⭐ 3个主数据集 + 3个噪声域 + 详细消融 + 稀疏性分析 + 即插即用验证
写作质量: ⭐⭐⭐⭐ 动机清晰，公式推导完整
实用价值: ⭐⭐⭐⭐ 频域损失即插即用，可直接应用于现有SR模型