跳转至

Block-Sample MAC-Bayes Generalization Bounds

会议: ICLR2026
arXiv: 2602.12605
代码: 无
领域: others (学习理论)
关键词: PAC-Bayes, MAC-Bayes, 泛化界, 信息论, 块样本

一句话总结

提出块样本MAC-Bayes泛化界(mean approximately correct),将训练数据划分为J个块后用各块条件下的KL散度之和替代整体KL散度,在确定性学习算法(如均值估计)等原始PAC-Bayes界为空(vacuous)的场景下仍能给出有限、有意义的泛化误差界,并证明了该界的高概率版本在一般情况下不可行。

研究背景与动机

领域现状

PAC-Bayes框架是统计学习理论中界定泛化误差的重要工具,通过学习算法后验 \(P_{W|S}\) 与先验 \(Q_W\) 之间的KL散度来界定经验损失与总体损失的差距。近年来PAC-Bayes界因能为深度神经网络提供非平凡的泛化界而重获关注。MAC-Bayes界(mean approximately correct)是PAC-Bayes的期望版本,界定的是期望泛化误差而非高概率泛化误差。

现有痛点

  1. 确定性算法下PAC-Bayes界失效:当学习算法 \(P_{W|S}\) 是确定性的(如 \(W = \frac{1}{n}\sum_i Z_i\)),\(P_{W|S}\) 为Dirac分布,对任何先验 \(Q_W\) 的KL散度都是无穷大,导致PAC-Bayes界和对应的MAC-Bayes界都为空(vacuous)
  2. 单一KL散度项过于粗糙:整体的 \(D(P_{W|S} \| Q_W)\) 用一个标量概括了训练集的所有信息对假设的影响,当这种影响过强(如确定性算法),界就会爆炸
  3. 信息论界的类似局限:基于互信息 \(I(W;S)\) 的泛化界也存在类似问题

核心矛盾

PAC-Bayes界的散度项 \(D(P_{W|S} \| Q_W)\) 度量的是完整训练集S对假设W的"信息影响",当这种影响很强时界就失效。但从直觉上,如果只看训练集的一小部分(一个块 \(S_j\))对假设的影响 \(D(P_{W|S_j} \| Q_W)\),这个量可以是有限的——即使总影响是无穷的。

本文要解决什么

(1) 构造利用块结构的MAC-Bayes泛化界族,使得即使原始PAC-Bayes界为空也能给出有意义的界;(2) 分析块大小的最优选择;(3) 探讨是否可以得到高概率(PAC)版本。

切入角度

受信息论中"个体样本界"(Bu et al., 2020)的启发,将训练集 \(S\) 划分为 \(J = n/m\) 个大小为 \(m\) 的块,用各块的边际化后验 \(P_{W|S_j} := \mathbb{E}_{P_{S \setminus S_j}} P_{W|S}\) 与先验的KL散度之和来替代整体KL散度。

核心idea一句话

将训练集分块后用"部分数据条件下的KL散度之和"替代"全数据KL散度"来构建更紧的MAC-Bayes泛化界。

方法详解

整体框架

设训练集 \(S = (Z_1, \ldots, Z_n)\) i.i.d.,将其均匀划分为 \(J = n/m\) 个大小为 \(m\) 的块 \(S_j\)。定义边际化后验 \(P_{W|S_j} := \mathbb{E}_{P_{S_1,\ldots,S_{j-1},S_{j+1},\ldots,S_J}} P_{W|S}\)(注意这不是只用 \(S_j\) 训练的算法,而是对完整算法在其他块上取期望后的分布)。目标是建立形如以下的泛化界:

\[\mathbb{E}_{P_S} d(\mathbb{E}_{P_{W|S}} \hat{L}(W,S), \mathbb{E}_{P_{W|S}} L(W)) \leq \frac{\sum_{j=1}^{J} \mathbb{E}_{P_{S_j}} D(P_{W|S_j} \| Q_W) + I''(n,d,J)}{n}\]

关键设计

  1. 核心定理(Theorem 1)——块样本MAC-Bayes界
  2. 做什么:给出一般性的块样本泛化界,对距离函数 \(d\) 和矩母函数条件 \(\Phi_m\) 参数化
  3. 核心思路:利用Jensen不等式(\(d\) 的联合凸性)将期望拉入 \(d\) 内部,再利用Fubini定理按块分离,然后对每块应用Donsker-Varadhan变分表示实现从后验到先验的测度变换。关键是每块的KL散度 \(D(P_{W|S_j} \| Q_W)\) 只依赖于 \(P_{W|S_j}\) 这个边际化分布,当 \(m \ll n\) 时这个量可以远小于全数据的 \(D(P_{W|S} \| Q_W)\)
  4. 设计动机:对确定性算法,\(D(P_{W|S} \| Q_W) = \infty\),但 \(D(P_{W|S_j} \| Q_W)\) 有限(因为 \(P_{W|S_j}\) 是对其他块取期望后的"模糊化"分布,不再是Dirac delta)

  5. Catoni函数特化(Corollary 1)

  6. 做什么:对有界损失 \(\ell(w,z) \in [0,1]\),用Catoni函数作为比较器函数
  7. 核心结果:\(\mathbb{E}_{P_S} C_\beta(\mathbb{E}_{P_{W|S}} \hat{L}, \mathbb{E}_{P_{W|S}} L) \leq \frac{1}{n} \sum_j \mathbb{E}_{P_{S_j}} D(P_{W|S_j} \| Q_W)\),矩母函数项完全消除!可进一步推出泛化误差界 \(\text{gen} \leq \sqrt{\frac{1}{4n} \sum_j \mathbb{E}_{P_{S_j}} D(P_{W|S_j} \| Q_W)}\)
  8. 这是最紧的版本,对应的binary KL和差函数特化都不如它

  9. 次高斯损失扩展(Corollary 2)

  10. 做什么:将界从有界损失扩展到 \(\sigma^2\)-次高斯损失
  11. 核心结果:\(\text{gen} \leq \sqrt{\frac{2\sigma^2}{n} \sum_j \mathbb{E}_{P_{S_j}} D(P_{W|S_j} \| Q_W)}\)
  12. 适用范围更广但界稍松

  13. 高概率版本的不可能性(Theorem 2)

  14. 做什么:证明块样本PAC-Bayes界(高概率版本)在一般情况下不可行
  15. 核心思路:构造一个反例学习场景——以小概率算法剧烈过拟合训练集,以大概率输出零损失假设。在此场景下MAC-Bayes界以 \(\mathcal{O}(n^{-1/2})\) 收敛,但任何形如 \(P_S(\text{gen} > A_n + B_n f(1/\delta)) \leq \delta\) 的PAC-Bayes界,要么 \(f\) 增长很快(不是对数级),要么 \(B_n\) 收敛很慢
  16. 意义:划清了MAC-Bayes与PAC-Bayes在块样本设置下的本质区别

块大小优化

在假设 \(\mathbb{E}_{P_S} D(P_{W|S_j} \| Q_W) \leq \mathcal{O}(m^\gamma) / \Theta(n)\) 下: - \(\gamma < 1\):常数块大小 \(m\)(包括 \(m=1\))即为最优,界以 \(\mathcal{O}(n^{-1/2})\) 衰减 - \(\gamma > 1\):块大小应线性增长 \(m = \Theta(n)\)(但必须 \(m \neq n\)),对应上文高斯均值估计例子中 \(\gamma = 1\) 恰好是过渡点 - \(\gamma = 1\)(过渡点):任何 \(m \neq n\) 的选择均给出 \(\mathcal{O}(n^{-1/2})\) 的界

实验关键数据

数值示例

论文仅包含一个高斯均值估计的数值验证(\(Z_i \sim \mathcal{N}(\mu, 1)\)\(W = \frac{1}{n}\sum Z_i\),截断平方损失),而非大规模ML实验。

块大小 \(m\) 界的行为 备注
\(m = n\)(原始PAC-Bayes) \(\infty\)(空界) KL散度无穷大
\(m = 1\)(最细划分) \(\mathcal{O}(n^{-1/2})\),最优 此例中最紧
\(1 < m < n\) 有限且 \(\mathcal{O}(n^{-1/2})\) 对选择不太敏感

理论对比

界的类型 比较器 \(d\) 界的形式 是否需要 \(m \neq n\)
Corollary 1(Catoni) \(C_\beta\) \(\sqrt{\frac{1}{4n}\sum D}\)
Eq.(11)(binary KL直接代入) \(\text{kl}\) \(\sqrt{\frac{\log(2\sqrt{m})}{m} + \frac{1}{n}\sum D}\) 是,且更松
Corollary 2(次高斯) \(s - r\) \(\sqrt{\frac{2\sigma^2}{n}\sum D}\)
原始PAC-Bayes 同上 $\frac{D(P_{W S}|Q_W) + \cdots}{n}$

关键发现

  • 块样本界在原始PAC-Bayes界完全失效(空界)的场景下仍能提供有意义的 \(\mathcal{O}(n^{-1/2})\) 收敛保证
  • 界对块大小 \(m\) 的选择不太敏感(只要 \(m \neq n\)),但 \(m = 1\) 在高斯均值估计例中最优
  • Catoni函数特化(Corollary 1)严格优于直接代入binary KL或差函数
  • 高概率版本的不可能性是一个根本性限制,而非技术障碍

亮点与洞察

  • "分块边际化"的核心思想极为优雅:通过将确定性的 \(P_{W|S}\) 在部分数据上取期望得到"模糊化"的 \(P_{W|S_j}\),使得Dirac分布变成连续分布,KL散度从无穷变有限。这个trick揭示了PAC-Bayes框架中KL散度失效的根本原因不是方法不好,而是信息度量的粒度太粗
  • 反例构造技术:Theorem 2的反例("小概率严重过拟合+大概率完美")是一个精巧的概率构造,清晰展示了期望界与高概率界之间不可弥合的差距
  • Catoni比较器函数的优势在块样本设置下更加凸显——它能完全消除矩母函数项,而binary KL和差函数代入都会引入额外项

局限性 / 可改进方向

  • 仅有简单数值示例:论文仅验证了高斯均值估计这一玩具例子,未在任何实际ML算法(如SGD训练的神经网络)上展示有效性。作者承认"还需大量后续工作解决实际应用中的问题"
  • 依赖数据分布:界中的散度项 \(D(P_{W|S_j} \| Q_W)\) 依赖于数据生成分布 \(P_Z\),在不知道 \(P_Z\) 的情况下界不可计算。这是信息论泛化界的通病
  • 边际化后验的计算困难\(P_{W|S_j}\) 需要对其他 \(J-1\) 个块取期望,对复杂学习算法(如深度学习)难以解析或高效近似
  • 未来方向:(1) 结合学习算法性质进一步上界散度项;(2) 在实际深度学习场景中给出可计算的版本;(3) 探索其他分块策略(如随机分块 vs 连续分块)

相关工作与启发

  • vs Bu et al. (2020) 个体样本界:Bu et al.将互信息界分解到单个样本的互信息 \(I(W; Z_i)\),本文是PAC-Bayes框架下的类似思路但用KL散度+块结构。块方法更灵活,可通过调整块大小优化界
  • vs Harutyunyan et al. (2021, 2022):他们也考虑了子集样本的互信息界和高概率版本的不可能性,但是在不同的系统设定下,且仅限于块大小 \(m=1\) 的特殊情况
  • vs Wu et al. (2024) 递归PAC-Bayes:也用块分割但有递归结构,不可直接比较
  • 这项工作展示了PAC-Bayes框架仍有大量改进空间,"分而治之"的信息分解思路是一个有前途的方向

评分

  • 新颖性: ⭐⭐⭐⭐ 块样本分解思路新颖且具有理论深度,不可能性结果增加了完整性
  • 实验充分度: ⭐⭐ 仅有一个玩具数值例子,缺乏实际ML场景验证,但对纯理论工作而言可以接受