Representative Language Generation¶
会议: ICML2025
arXiv: 2505.21819
代码: 无(纯理论工作)
领域: 语言生成理论 / 算法公平性
关键词: representative generation, language generation in the limit, group closure dimension, fairness in generative models, mode collapse, diversity
一句话总结¶
提出"代表性生成"(representative generation)理论框架,要求生成模型的输出按比例代表训练数据中的各兴趣群组,并引入"群组闭包维度"(group closure dimension)作为刻画可生成性的关键组合量。
研究背景与动机¶
近年来生成模型(LLM、扩散模型等)取得巨大成功,但多样性不足和偏见问题日益突出:
- 模式坍塌(mode collapse):生成模型倾向于过度代表某些群组,忽略少数群组
- 社会偏见:语言模型在生成内容中表现出性别、种族等方面的系统性偏差
- 理论缺口:Kleinberg & Mullainathan (2024) 提出了"极限生成"(generation in the limit)框架,Li et al. (2024) 进一步形式化,但均未考虑公平性/多样性约束
本文的核心动机是:在生成理论框架中加入代表性约束,要求生成模型的输出分布按比例反映训练数据中各群组的占比,从而在理论层面研究公平生成的可行性边界。
方法详解¶
基本设置¶
设可数样本空间 \(\mathcal{X}\),假设类 \(\mathcal{H} \subseteq \{0,1\}^{\mathcal{X}}\),每个 \(h \in \mathcal{H}\) 的支撑集为:
在 \(\mathcal{X}\) 上引入兴趣群组集合 \(\mathcal{A} \subseteq 2^{\mathcal{X}}\),通常为 \(\mathcal{X}\) 的一个可数划分 \(\mathcal{A} = \{A_1, A_2, \ldots\}\)。
代表性生成的定义¶
给定容差参数 \(\alpha > 0\),生成器 \(\mathcal{G}\) 实现 \(\alpha\)-代表性生成,要求对所有时间步 \(t\):
其中 \(\overline{x_{1:t}}|_{\mathcal{A}}(i)\) 是输入序列中属于群组 \(A_i\) 的样本比例,\(\mathcal{G}(x_{1:t})|_{\mathcal{A}}(i)\) 是生成器输出分布在群组 \(A_i\) 上的概率质量。
群组闭包维度(Group Closure Dimension)¶
本文的核心贡献是引入 群组闭包维度 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A})\):
对给定 \(d\) 个不同样本 \(x_1, \ldots, x_d\),定义闭包 \(\langle x_1, \ldots, x_d \rangle_{\mathcal{H}}\) 为所有与这些样本一致的假设的支撑集交集。群组闭包维度是满足特定"被封锁群组"条件的最大样本数 \(d\)。
- 当 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) < \infty\) 时,\(\alpha\)-代表性均匀生成可行
- 当 \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) = \infty\) 时,\(\alpha\)-代表性均匀生成不可行
极限代表性生成¶
对于极限生成(generation in the limit):
- 信息论层面:对可数无穷假设类和群组集合,在某些条件下代表性极限生成是可行的
- 计算层面:仅使用成员查询(membership queries)时,代表性极限生成不可计算——这与 Kleinberg et al. (2024) 对标准极限生成的正面结果形成鲜明对比
与标准生成的关键区别¶
| 性质 | 标准生成 | 代表性生成 |
|---|---|---|
| 均匀生成 | 由闭包维度刻画 | 由群组闭包维度刻画 |
| 极限生成(信息论) | 可数类可行 | 可数类在条件下可行 |
| 极限生成(计算) | 成员查询可计算 | 成员查询不可计算 |
实验关键数据¶
本文为纯理论工作,无实验数据。主要结果以定理形式呈现:
| 定理 | 内容 | 意义 |
|---|---|---|
| Theorem (均匀生成刻画) | \(\alpha\)-代表性均匀生成 \(\Leftrightarrow\) \(\text{GC}_\alpha(\mathcal{H}, \mathcal{A}) < \infty\) | 完整刻画,充要条件 |
| Theorem (非均匀生成) | 类似刻画扩展到非均匀情形 | 更一般的设置 |
| Theorem (极限生成正面) | 可数类在特定条件下可代表性极限生成 | 信息论可行性 |
| Theorem (极限生成负面) | 仅用成员查询不可计算代表性极限生成 | 计算障碍 |
亮点与洞察¶
- 群组闭包维度是精确刻画:类似于 VC 维度之于学习理论,群组闭包维度精确刻画了代表性生成的可行性边界
- 公平性带来本质计算代价:标准极限生成可用成员查询实现,但加入代表性约束后变得不可计算,揭示了公平性和可计算性之间的深层张力
- 连接生成理论与公平性理论:将多校准(multicalibration)、结果不可区分性(outcome indistinguishability)等公平性概念与生成理论桥接
- 形式化了模式坍塌问题:代表性约束本质上是对模式坍塌的理论刻画,为实际应对提供理论基础
局限与展望¶
- 纯理论框架:所有结果均在形式化的理论设置下,缺乏与实际生成模型(如 GPT、扩散模型)的实验验证
- 可数空间假设:实际应用中样本空间通常是连续的(如图像空间),可数假设的适用性有限
- 划分假设较强:要求群组形成 \(\mathcal{X}\) 的划分,实际中群组往往重叠
- 成员查询模型的局限:实际生成模型远不止成员查询,负面结果的实际意义需进一步讨论
- 未涉及效率:即使信息论可行的情形,算法的样本/时间复杂度未被分析
相关工作与启发¶
- Kleinberg & Mullainathan (2024):极限语言生成的开创性框架,本文直接扩展
- Li, Raman & Tewari (2024):通过学习理论视角形式化生成,引入闭包维度
- Gold (1967):极限语言识别的经典工作,本文的理论根基
- Hébert-Johnson et al. (2018):多校准框架,启发了代表性约束的设计
- Bender et al. (2021):"随机鹦鹉"论文,指出 LLM 多样性问题的实际危害
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次将代表性/公平性约束引入形式语言生成理论,群组闭包维度是全新概念
- 实验充分度: ⭐⭐ — 纯理论工作无实验,但定理证明严谨完整
- 写作质量: ⭐⭐⭐⭐ — 形式化严谨,结构清晰,但对非理论读者门槛较高
- 价值: ⭐⭐⭐⭐ — 为公平生成提供了坚实的理论基础,揭示了公平性与可计算性的本质矛盾
相关论文¶
- [ICML 2025] Long-Form Speech Generation with Spoken Language Models
- [CVPR 2025] Language-Guided Image Tokenization for Generation
- [CVPR 2025] Yo'Chameleon: Personalized Vision and Language Generation
- [ICML 2025] Visual Language Models as Zero-Shot Deepfake Detectors
- [ICML 2025] NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction