Generalizing Linear Autoencoder Recommenders with Decoupled Expected Quadratic Loss¶
会议: ICLR 2026
arXiv: 2603.07402
代码: https://github.com/coderaBruce/DEQL
领域: 推荐系统 / 线性自编码器
关键词: 线性自编码器, 推荐系统, 协同过滤, 期望二次损失, 闭式解
一句话总结¶
将 EDLAE 推荐模型的目标函数推广为解耦期望二次损失(DEQL),在超参数 \(b>0\) 的更广范围内推导出闭式解,并通过 Miller 矩阵逆定理将计算复杂度从 \(O(n^4)\) 降至 \(O(n^3)\),在多个基准数据集上超越 EDLAE 和深度学习模型。
研究背景与动机¶
-
领域现状:线性自编码器(LAE)推荐模型(如 EASE、EDLAE、ELSA)因其简洁性和闭式解的可复现性,在协同过滤任务中表现出与深度学习模型相当甚至更好的性能。它们通过学习物品-物品相似矩阵 \(W \in \mathbb{R}^{n \times n}\) 来重建用户-物品交互矩阵 \(R\)。
-
现有痛点:EDLAE 通过引入 dropout 和强调权重矩阵 \(A\)(参数 \(a\) 和 \(b\)),使训练过程更好地对齐测试场景。但原始 EDLAE 只为 \(b=0\) 的特殊情况推导了闭式解,限制了模型的表达能力。
-
核心矛盾:\(b>0\) 时可能存在更好的解空间,但由于 Hessian 矩阵 \(H^{(i)}\) 随列索引 \(i\) 变化,直接求逆的复杂度为 \(O(n^4)\),计算不可行。
-
本文要解决什么?:(a) 推导 \(b>0\) 情况下的闭式解;(b) 降低计算复杂度使其实用;(c) 验证扩展后的解空间能否发现更好的模型。
-
切入角度:将 EDLAE 目标函数重写为期望形式,将每列 \(W_{*i}\) 的优化解耦为独立的期望二次损失问题,从而得到统一的闭式解框架。
-
核心idea一句话:通过将 EDLAE 推广为解耦期望二次损失 DEQL,统一推导 \(b \geq 0\) 的所有闭式解,并用矩阵逆迭代定理将 \(b>0\) 的计算降至 \(O(n^3)\)。
方法详解¶
整体框架¶
输入为用户-物品二值交互矩阵 \(R \in \{0,1\}^{m \times n}\),输出为物品相似矩阵 \(W \in \mathbb{R}^{n \times n}\),预测 \(\hat{R} = RW\)。训练目标是最小化一个带 dropout 和强调权重的期望二次损失:
其中 \(\Delta\) 是 Bernoulli 随机矩阵(dropout),\(A\) 是强调矩阵(被 dropout 掉的项权重为 \(a\),未被 dropout 的权重为 \(b\))。整个方法分三步:(1) 推导 DEQL 闭式解;(2) 高效算法降低复杂度;(3) 结合 \(L_2\) 正则化和零对角约束。
关键设计¶
- 解耦期望二次损失(DEQL):
- 做什么:将整体目标函数按 \(W\) 的列解耦,每列独立优化
- 核心思路:利用 Frobenius 范数可按列分解的性质,将目标写为 \(l(W) = \sum_{i=1}^n h^i(W_{*i})\)。每个 \(h^i\) 是 \(W_{*i}\) 的二次函数,闭式解为 \(W_{*i}^* = \mathbb{E}[X^TX]^{-1}\mathbb{E}[X^TY_{*i}]\),即标准的期望线性回归解
-
设计动机:这种解耦使得可以独立分析每列的最优解,避免了耦合带来的求解困难,也揭示了 \(b=0\) 时解不唯一(对角元素任意)的理论性质
-
\(b>0\) 闭式解与唯一性定理:
- 做什么:证明当 \(b>0\) 时,\(H^{(i)} = G^{(i)} \odot R^TR\) 正定,闭式解存在且唯一
- 核心思路:通过 Lemma 3.2 显式计算 \(H^{(i)}\) 和 \(v^{(i)}\) 的期望表达式。\(G^{(i)}\) 的元素由 \(a, b, p\) 的多项式组成,当 \(b>0\) 时 \(G^{(i)}\) 正定,从而 \(H^{(i)}\) 正定
-
设计动机:解决了原始 EDLAE 只在 \(b=0\) 有解的限制。特别地,即使 \(b > a\)(超出 EDLAE 原始范围)也有解,且实验发现某些数据集上 \(b>a\) 效果最好
-
Miller 矩阵逆迭代算法:
- 做什么:将所有 \(n\) 个 \(H^{(i)}^{-1}\) 的计算从 \(O(n^4)\) 降至 \(O(n^3)\)
- 核心思路:将 \(H^{(i)}\) 分解为 \(H_0 + E_1^{(i)} + E_2^{(i)}\),其中 \(H_0\) 与 \(i\) 无关(只需逆一次),\(E_1^{(i)}\) 和 \(E_2^{(i)}\) 各为秩1矩阵。利用 Miller 定理的秩1更新公式,每个 \(H^{(i)}^{-1}v^{(i)}\) 只需 \(O(n)\) 的向量运算
- 设计动机:这是使 \(b>0\) 方案实际可用的关键。没有这个优化,\(O(n^4)\) 的复杂度对于大规模推荐数据集完全不可行
损失函数 / 训练策略¶
最终优化目标支持三种变体: - DEQL(plain):纯 DEQL,公式 (9) - DEQL(L2):\(W^* = (H^{(i)} + \lambda I)^{-1}v^{(i)}\),将 \(H_0\) 替换为 \(H_0 + \lambda I\) 即可复用同一算法 - DEQL(L2+zero-diag):在 L2 基础上增加零对角约束,通过公式 (17) 的投影实现
实验关键数据¶
主实验(强泛化设置 - LAE模型对比)¶
| 数据集 | 指标 | DEQL(L2) | EDLAE | EASE | 提升 |
|---|---|---|---|---|---|
| Games | R@20 | 0.2891 | 0.2851 | 0.2733 | +1.4% |
| Beauty | R@20 | 0.1408 | 0.1324 | 0.1323 | +6.3% |
| Gowalla-1 | R@20 | 0.2298 | 0.2268 | 0.2230 | +1.3% |
| ML-20M | R@20 | 0.3940 | 0.3925 | 0.3905 | +0.4% |
| Netflix | R@20 | 0.3662 | 0.3656 | 0.3618 | +0.2% |
| MSD | R@20 | 0.3348 | 0.3336 | 0.3332 | +0.4% |
弱泛化设置(深度学习模型对比)¶
| 数据集 | 指标 | DEQL(L2) | SSM(最佳DL) | 提升 |
|---|---|---|---|---|
| Amazonbook | R@20 | 0.0629 | 0.0496 | +26.8% |
| Amazonbook | N@20 | 0.0362 | 0.0270 | +34.1% |
| Yelp2018 | R@20 | 0.0746 | 0.0765 | -2.5% |
| Gowalla | R@20 | 0.1824 | 0.1894 | -3.7% |
消融实验¶
| 配置 | Games R@20 | Beauty R@20 | 说明 |
|---|---|---|---|
| DEQL(L2) | 0.2891 | 0.1408 | 完整模型,\(b>0\) + L2 |
| DEQL(L2+zero-diag) | 0.2872 | 0.1388 | 增加零对角约束后略降 |
| DEQL(plain) | 0.2524 | 0.1093 | 无L2正则化,性能显著下降 |
| EDLAE (\(b=0\)) | 0.2851 | 0.1324 | 原始方法 |
关键发现¶
- \(L_2\) 正则化对性能至关重要,DEQL(plain) 远不如 DEQL(L2)
- 零对角约束不一定有益,DEQL(L2) 经常优于 DEQL(L2+zero-diag)
- 在某些数据集上(如 Games),最优 \(b/a\) 比值大于 1(即 \(b>a\)),超出了 EDLAE 原始建议的 \(a \geq b\) 范围
- 在 Amazonbook 上对深度学习模型有 27-34% 的显著优势,但在 Yelp2018 和 Gowalla 上略逊于 SSM
亮点与洞察¶
- Miller 矩阵逆迭代降复杂度的技巧非常优雅:将矩阵逆中的列依赖项分解为两个秩1扰动,利用秩1更新公式逐列计算,把 \(O(n^4)\) 降到 \(O(n^3)\)。这个思路可迁移到任何"矩阵逆随索引变化但变化量秩低"的场景。
- 解耦目标函数的思路揭示了 \(b=0\) 时解不唯一的理论性质(对角元素可任意),这为 Moon et al. (2023) 提出的"放松零对角约束"提供了理论解释。
- 简单线性模型在推荐系统中依然有很大潜力,关键在于正确设计训练目标使其对齐测试场景。
局限性 / 可改进方向¶
- 性能提升在大型数据集上较为有限(Netflix、MSD 提升 <0.5%),扩展解空间的收益递减
- \(b>0\) 引入了额外超参数(\(a, b, p, \lambda\) 四个),网格搜索成本较高
- 仅考虑隐式反馈(二值交互矩阵),未扩展到显式评分场景
- 在 Yelp2018 和 Gowalla 的弱泛化设置下不如 SSM 等深度模型,说明简单线性模型在图结构信息建模上的不足
相关工作与启发¶
- vs EDLAE (Steck 2020): EDLAE 只解决了 \(b=0\) 的特殊情况,本文将其推广到 \(b \geq 0\) 的完整解空间。性能提升虽小但稳定。
- vs EASE (Steck 2019): EASE 是 DEQL 在 dropout 率 \(p=0\) 的特殊情况,不含强调权重机制。
- vs LightGCN: 深度图模型在密集交互数据上更有优势,但在稀疏数据(如 Amazonbook)上不如 DEQL。
评分¶
- 新颖性: ⭐⭐⭐ 技术推广自然但本质是对已有方法的超参数空间扩展
- 实验充分度: ⭐⭐⭐⭐ 9个数据集,多个基线,有统计显著性检验
- 写作质量: ⭐⭐⭐⭐ 数学推导清晰,但符号较重
- 价值: ⭐⭐⭐ 对 LAE 推荐模型有理论贡献,但实际性能提升有限