跳转至

Learning Single-Index Models via Harmonic Decomposition

会议: NeurIPS2025
arXiv: 2506.09887
作者: Nirmit Joshi (TTIC), Hugo Koubbi (Yale / ENS Paris-Saclay), Theodor Misiakiewicz (Yale), Nathan Srebro (TTIC) 代码: 待确认
领域: optimization
关键词: single-index models, spherical harmonics, harmonic decomposition, sample complexity, computational complexity, tensor unfolding, online SGD

一句话总结

提出以球谐函数(spherical harmonics)代替 Hermite 多项式作为单指标模型(SIM)的自然基底,利用旋转对称性刻画任意球对称输入分布下学习 SIM 的样本与计算复杂度,构造了两族最优估计器(张量展开 + 在线 SGD),并揭示了高斯情形之外出现的样本-运行时间权衡现象。

研究背景与动机

单指标模型(SIM) 是统计学和机器学习中的基础模型:标签 \(y\) 仅通过输入 \(\bm{x}\) 的一维投影 \(\langle \bm{w}_*, \bm{x} \rangle\) 决定。近年来,SIM 成为研究高维学习中统计-计算间隙、非凸优化和特征学习的原型模型。

高斯 SIM 的已有成果:Damian et al. 通过 Hermite 展开定义了 generative exponent \(\mathsf{k}_\star\),给出了最优样本复杂度 \(\mathsf{m} = \Theta_d(d^{\mathsf{k}_\star/2})\) 和运行时间 \(\mathsf{T} = \tilde{\Theta}_d(d^{\mathsf{k}_\star/2+1})\)。多个算法逐步缩小差距:vanilla SGD 达到次优的 \(d^{\mathsf{k}_\star}\),smoothing SGD 和 partial trace 达到最优。

遗留的概念性问题: - 为什么 vanilla SGD 的运行时间是 \(d^{\mathsf{k}_\star}\) 而非最优的 \(d^{\mathsf{k}_\star/2+1}\)? - 为什么从 tensor PCA 借来的 landscape smoothing 和 partial trace 能达到最优? - 高斯假设在结果中究竟扮演什么角色?

本文核心洞察:SIM 学习的复杂度由问题的旋转对称性而非高斯性决定。球谐函数——作为正交群 \(\mathcal{O}_d\) 的不可约表示——才是该问题的自然基底。这一视角不仅澄清了上述问题,还将理论推广到任意球对称输入分布。

方法详解

球面单指标模型

将输入 \(\bm{x}\) 做极坐标分解 \(\bm{x} = r\bm{z}\)\(r = \|\bm{x}\|_2\) 为半径,\(\bm{z} = \bm{x}/\|\bm{x}\|_2\) 为方向),模型为:

\[(y, \bm{x}) \sim \mathbb{P}_{\bm{w}_*}: \quad \bm{x} = (r, \bm{z}) \sim \mu_r \otimes \tau_d, \quad y|(r, \bm{z}) \sim \nu_d(\cdot | r, \langle \bm{w}_*, \bm{z} \rangle)\]

标签可同时依赖半径 \(r\) 和投影 \(\langle \bm{w}_*, \bm{z} \rangle\),比高斯 SIM 更一般。

调和分解与复杂度刻画

\(L^2(\mathbb{S}^{d-1})\) 分解为调和子空间 \(\bigoplus_{\ell=0}^{\infty} V_{d,\ell}\),其中 \(\dim(V_{d,\ell}) = \Theta_d(d^\ell)\)。定义 \(\ell\) 阶 Gegenbauer 系数:

\[\xi_{d,\ell}(Y,R) := \mathbb{E}_{\nu_d}[Q_\ell(Z) | Y, R]\]

下界(Theorem 1):通过 LDP 和 SQ 框架建立:

\[\mathsf{m} \gtrsim \inf_{\ell \geq 1} \frac{d^{\ell/2}}{\|\xi_{d,\ell}\|_{L^2}^2}, \qquad \mathsf{T} \gtrsim \inf_{\ell \geq 1} \frac{d^{\ell}}{\|\xi_{d,\ell}\|_{L^2}^2}\]

关键性质:下界沿不可约子空间解耦,每个子空间 \(V_{d,\ell}\) 独立贡献一个 \(\dim(V_{d,\ell})\) 与信号强度 \(\|\xi_{d,\ell}\|_{L^2}^2\) 之间的竞争项。

三族最优估计器

1. 谱算法(\(\ell = 1, 2\): - \(\ell = 1\):构造经验均值向量 \(\hat{\bm{v}} = \frac{1}{\mathsf{m}} \sum_i \mathcal{T}_1(y_i, r_i) \sqrt{d}\, \bm{z}_i\),归一化得到估计 - \(\ell = 2\):构造经验矩阵 \(\hat{\bm{M}} = \frac{1}{\mathsf{m}} \sum_i \mathcal{T}_2(y_i, r_i) [d \cdot \bm{z}_i \bm{z}_i^\top - \bm{I}_d]\),取最大特征向量 - 同时达到最优样本和运行时间复杂度

2. 在线 SGD(\(\ell \geq 3\),运行时间最优): - 在总体损失 \(\min_{\bm{w}} \mathbb{E}[(\mathcal{T}_\ell(y,r) - Q_\ell(\langle \bm{w}, \bm{z} \rangle))^2]\) 上做投影在线 SGD - 样本 \(\mathsf{m} \asymp d^{\ell-1} / \|\xi_{d,\ell}\|_{L^2}^2\),运行时间 \(\mathsf{T} \asymp d^\ell / \|\xi_{d,\ell}\|_{L^2}^2\)(运行时间最优)

3. 调和张量展开(\(\ell \geq 3\),样本最优): - 构造调和张量 \(\hat{\bm{T}} = \frac{1}{\mathsf{m}} \sum_i \mathcal{T}_\ell(y_i, r_i) \mathcal{H}_\ell(\bm{z}_i)\),利用再生性质使期望正比于 \(\mathcal{H}_\ell(\bm{w}_*)\) - 对张量做矩阵化(unfolding)+ 幂迭代提取主分量 - 偶数 \(\ell\):balanced unfolding 即可;奇数 \(\ell\):去对角修正避免 \(\sqrt{d}\) 因子损失 - 样本 \(\mathsf{m} \asymp d^{\ell/2} / \|\xi_{d,\ell}\|_{L^2}^2\)(样本最优),运行时间 \(\mathsf{T} \asymp d^{\ell+1} / \|\xi_{d,\ell}\|_{L^2}^2 \cdot \log(d)\)

高斯 SIM 的特化

通过 Hermite-Gegenbauer 分解,证明 \(\|\xi_{d,\ell}\|_{L^2}^2 \asymp d^{-(\mathsf{k}_\star - \ell)/2}\)(当 \(\ell \equiv \mathsf{k}_\star \pmod{2}\))。代入下界后:

  • 样本和运行时间最优度 \(\mathsf{l}_\star\) 总是 1 或 2(取决于 \(\mathsf{k}_\star\) 的奇偶性)
  • 谱算法即可同时达到两个最优:\(\mathsf{m} = \Theta_d(d^{\mathsf{k}_\star/2})\)\(\mathsf{T} = \Theta_d(d^{\mathsf{k}_\star/2+1} \log d)\)

对已有算法的重新解读

  • Vanilla SGD 被高频调和分量 \(V_{d,\mathsf{k}_\star}\) 主导,且不利用半径信息 \(\|\bm{x}\|_2\)——在仅用方向信息的算法类中已是最优
  • Landscape smoothing 本质上是低通滤波,将动力学投影到低阶调和分量 \(V_{d,1}\)\(V_{d,2}\)
  • Partial trace 本质上是将高阶 Hermite 张量投影到低阶球谐子空间

实验关键数据

本文为纯理论工作,核心结果以复杂度界的形式呈现。

Table 1: 球面 SIM 各子空间的算法复杂度

子空间 \(V_{d,\ell}\) 样本最优估计器 运行时间最优估计器
\(\ell = 1\) 谱算法: \(\mathsf{m} \asymp d \vee \frac{d^{1/2}}{\|\xi_{d,1}\|^2}\) \(\mathsf{T} \asymp d^2 \vee \frac{d^{3/2}}{\|\xi_{d,1}\|^2}\)
\(\ell = 2\) 谱算法: \(\mathsf{m} \asymp \frac{d}{\|\xi_{d,2}\|^2}\) \(\mathsf{T} \asymp \frac{d^2}{\|\xi_{d,2}\|^2} \log d\)
\(\ell \geq 3\) (张量展开) \(\mathsf{m} \asymp \frac{d^{\ell/2}}{\|\xi_{d,\ell}\|^2}\) \(\mathsf{T} \asymp \frac{d^{\ell+1}}{\|\xi_{d,\ell}\|^2} \log d\)
\(\ell \geq 3\) (在线 SGD) \(\mathsf{m} \asymp \frac{d^{\ell-1}}{\|\xi_{d,\ell}\|^2}\) \(\mathsf{T} \asymp \frac{d^{\ell}}{\|\xi_{d,\ell}\|^2}\)

Table 2: 高斯 SIM 的算法对比(\(\mathsf{k}_\star > 1\)

算法 使用 \(\|\bm{x}\|_2\) 样本 \(\mathsf{m}\) 运行时间 \(\mathsf{T}\) 最优性
谱算法 (\(\ell=1\)\(2\)) \(d^{\mathsf{k}_\star/2}\) \(d^{\mathsf{k}_\star/2+1} \log d\) 样本+运行时间最优
调和张量展开 (\(\ell=\mathsf{k}_\star\)) \(d^{\mathsf{k}_\star/2}\) \(d^{\mathsf{k}_\star+1} \log d\) 样本最优
在线 SGD (\(\ell=\mathsf{k}_\star\)) \(d^{\mathsf{k}_\star-1}\) \(d^{\mathsf{k}_\star}\) 运行时间最优(仅方向)
Vanilla SGD [AGJ21] \(\tilde{O}(d^{\mathsf{k}_\star-1})\) \(\tilde{O}(d^{\mathsf{k}_\star})\) 次优
Smoothed SGD [DNGL24] \(\tilde{O}(d^{\mathsf{k}_\star/2})\) \(\tilde{O}(d^{\mathsf{k}_\star/2+1})\) 近最优
Partial Trace [DPVLB24] \(d^{\mathsf{k}_\star/2}\) \(d^{\mathsf{k}_\star/2+1} \log d\) 最优

关键发现: - 不使用半径信息的算法运行时间下界为 \(\Omega_d(d^{\mathsf{k}_\star})\),即使半径本身不含关于 \(\bm{w}_*\) 的信息 - 对输入做归一化(\(\bm{x} \to \bm{x}/\|\bm{x}\|_2\))会导致运行时间从 \(d^{\mathsf{k}_\star/2+1}\) 恶化到 \(d^{\mathsf{k}_\star}\) - 在一般球面 SIM 中,可构造 \(\mathsf{l}_{\mathsf{m},\star} \gg \mathsf{l}_{\mathsf{T},\star}\) 的分布,此时不存在同时达到两个最优的算法

亮点

  • 统一视角:球谐函数提供了比 Hermite 多项式更自然的基底,将旋转对称性作为核心原理而非技术便利,统一解释了 vanilla SGD 次优性、smoothing 和 partial trace 的成功
  • 超越高斯设定:首次刻画任意球对称分布下 SIM 的最优复杂度,揭示了高斯情形之外的样本-运行时间权衡(高斯情形中两者可同时最优,一般情况则不然)
  • 半径信息的角色:精确量化了利用/忽略输入范数 \(\|\bm{x}\|_2\) 对复杂度的影响——即使半径本身不含关于 \(\bm{w}_*\) 的信息,不利用它也会导致运行时间的平方级恶化
  • 调和张量展开:为奇数阶张量的去对角修正提供了新技术,避免了对称噪声导致的 \(\sqrt{d}\) 因子损失

局限与展望

  • 纯理论工作:无实验验证,所有结果均为渐近复杂度界(常数依赖于链接函数 \(\rho\)\(\nu_d\)
  • 已知链接函数假设:假设 \(\nu_d\) 已知(Remark 2.1 讨论了未知情形可用随机非线性替代,但未展开)
  • 奇数阶差距:当 \(\ell \geq 3\) 为奇数时,是否存在同时达到样本和运行时间最优的单一算法仍是开放问题
  • 多指标模型未覆盖:框架自然推广到多指标模型需要更高阶球谐函数,作者留为未来工作
  • 检测 vs 恢复间隙\(\ell = 1\) 且信号较强时,检测问题的下界弱于恢复问题的信息论下界 \(\Omega(d)\)

与相关工作的对比

维度 本文 Damian et al. (DPVLB24) Ben Arous et al. (AGJ21)
基底 球谐函数 (Gegenbauer) Hermite 多项式 Hermite 多项式
输入分布 任意球对称 仅高斯 仅高斯
核心原理 旋转对称性 + 不可约表示 tensor PCA 类比 非凸 loss 的 saddle dynamics
样本最优 是(张量展开) 是(partial trace) 否(\(d^{\mathsf{k}_\star-1}\)
运行时间最优 是(在线 SGD / 谱算法) 是(partial trace) 否(\(d^{\mathsf{k}_\star}\)
样本-运行时间权衡 首次揭示(非高斯) 无(高斯中不出现)
半径信息分析 精确量化影响 隐式使用 未使用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 以旋转对称性和球谐函数重新构建 SIM 学习理论,提供全新统一视角,同时揭示了高斯设定之外的新现象
  • 实验充分度: ⭐⭐⭐ — 纯理论工作,无实验验证,但理论结果的完整性弥补了这一缺憾
  • 写作质量: ⭐⭐⭐⭐⭐ — 结构极佳,从直觉到形式化层层递进,对已有方法的重新解读富有洞察力
  • 价值: ⭐⭐⭐⭐⭐ — 为高维学习的统计-计算间隙提供了基于群表示论的统一框架,具有深远的理论影响

相关论文