ICML2025 图像生成 representative generation language generation in the limit group closure dimension fairness in generative models mode collapse diversity

Representative Language Generation¶

会议: ICML2025
arXiv: 2505.21819
代码: 无（纯理论工作）
领域: 语言生成理论 / 算法公平性
关键词: representative generation, language generation in the limit, group closure dimension, fairness in generative models, mode collapse, diversity

一句话总结¶

提出"代表性生成"（representative generation）理论框架，要求生成模型的输出按比例代表训练数据中的各兴趣群组，并引入"群组闭包维度"（group closure dimension）作为刻画可生成性的关键组合量。

研究背景与动机¶

近年来生成模型（LLM、扩散模型等）取得巨大成功，但多样性不足和偏见问题日益突出：

模式坍塌（mode collapse）：生成模型倾向于过度代表某些群组，忽略少数群组
社会偏见：语言模型在生成内容中表现出性别、种族等方面的系统性偏差
理论缺口：Kleinberg & Mullainathan (2024) 提出了"极限生成"（generation in the limit）框架，Li et al. (2024) 进一步形式化，但均未考虑公平性/多样性约束

本文的核心动机是：在生成理论框架中加入代表性约束，要求生成模型的输出分布按比例反映训练数据中各群组的占比，从而在理论层面研究公平生成的可行性边界。

方法详解¶

基本设置¶

设可数样本空间 \(\mathcal{X}\)，假设类 \(\mathcal{H} \subseteq \{0,1\}^{\mathcal{X}}\)，每个 \(h \in \mathcal{H}\) 的支撑集为：

\[\text{supp}(h) := \{x \in \mathcal{X} : h(x) = 1\}\]

在 \(\mathcal{X}\) 上引入兴趣群组集合 \(\mathcal{A} \subseteq 2^{\mathcal{X}}\)，通常为 \(\mathcal{X}\) 的一个可数划分 \(\mathcal{A} = \{A_1, A_2, \ldots\}\)。

代表性生成的定义¶

给定容差参数 \(\alpha > 0\)，生成器 \(\mathcal{G}\) 实现 \(\alpha\)-代表性生成，要求对所有时间步 \(t\)：

\[\|\mathcal{G}(x_{1:t})|_{\mathcal{A}} - \overline{x_{1:t}}|_{\mathcal{A}}\|_{\infty} \leq \alpha\]

其中 \(\overline{x_{1:t}}|_{\mathcal{A}}(i)\) 是输入序列中属于群组 \(A_i\) 的样本比例，\(\mathcal{G}(x_{1:t})|_{\mathcal{A}}(i)\) 是生成器输出分布在群组 \(A_i\) 上的概率质量。

群组闭包维度（Group Closure Dimension）¶

本文的核心贡献是引入 群组闭包维度 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A})\)：

对给定 \(d\) 个不同样本 \(x_1, \ldots, x_d\)，定义闭包 \(\langle x_1, \ldots, x_d \rangle_{\mathcal{H}}\) 为所有与这些样本一致的假设的支撑集交集。群组闭包维度是满足特定"被封锁群组"条件的最大样本数 \(d\)。

当 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) < \infty\) 时，\(\alpha\)-代表性均匀生成可行
当 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) = \infty\) 时，\(\alpha\)-代表性均匀生成不可行

极限代表性生成¶

对于极限生成（generation in the limit）：

信息论层面：对可数无穷假设类和群组集合，在某些条件下代表性极限生成是可行的
计算层面：仅使用成员查询（membership queries）时，代表性极限生成不可计算——这与 Kleinberg et al. (2024) 对标准极限生成的正面结果形成鲜明对比

与标准生成的关键区别¶

性质	标准生成	代表性生成
均匀生成	由闭包维度刻画	由群组闭包维度刻画
极限生成（信息论）	可数类可行	可数类在条件下可行
极限生成（计算）	成员查询可计算	成员查询不可计算

实验关键数据¶

本文为纯理论工作，无实验数据。主要结果以定理形式呈现：

定理	内容	意义
Theorem (均匀生成刻画)	\(\alpha\)-代表性均匀生成 \(\Leftrightarrow\) \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) < \infty\)	完整刻画，充要条件
Theorem (非均匀生成)	类似刻画扩展到非均匀情形	更一般的设置
Theorem (极限生成正面)	可数类在特定条件下可代表性极限生成	信息论可行性
Theorem (极限生成负面)	仅用成员查询不可计算代表性极限生成	计算障碍

亮点与洞察¶

群组闭包维度是精确刻画：类似于 VC 维度之于学习理论，群组闭包维度精确刻画了代表性生成的可行性边界
公平性带来本质计算代价：标准极限生成可用成员查询实现，但加入代表性约束后变得不可计算，揭示了公平性和可计算性之间的深层张力
连接生成理论与公平性理论：将多校准（multicalibration）、结果不可区分性（outcome indistinguishability）等公平性概念与生成理论桥接
形式化了模式坍塌问题：代表性约束本质上是对模式坍塌的理论刻画，为实际应对提供理论基础

局限与展望¶

纯理论框架：所有结果均在形式化的理论设置下，缺乏与实际生成模型（如 GPT、扩散模型）的实验验证
可数空间假设：实际应用中样本空间通常是连续的（如图像空间），可数假设的适用性有限
划分假设较强：要求群组形成 \(\mathcal{X}\) 的划分，实际中群组往往重叠
成员查询模型的局限：实际生成模型远不止成员查询，负面结果的实际意义需进一步讨论
未涉及效率：即使信息论可行的情形，算法的样本/时间复杂度未被分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将代表性/公平性约束引入形式语言生成理论，群组闭包维度是全新概念
实验充分度: ⭐⭐ — 纯理论工作无实验，但定理证明严谨完整
写作质量: ⭐⭐⭐⭐ — 形式化严谨，结构清晰，但对非理论读者门槛较高
价值: ⭐⭐⭐⭐ — 为公平生成提供了坚实的理论基础，揭示了公平性与可计算性的本质矛盾