Post-training Large Language Models for Diverse High-Quality Responses¶
会议: ICLR 2026
arXiv: 2509.04784
代码: https://github.com/fairytale9/diversity-quality-optimization
领域: 文本生成 / LLM后训练
关键词: 多样性, 行列式点过程, GRPO, 后训练, 质量-多样性权衡
一句话总结¶
提出 DQO(Diversity Quality Optimization),基于行列式点过程(DPP)在语义嵌入空间中定义多样性度量,将其与奖励信号联合优化,使 LLM 后训练同时提升语义多样性和响应质量,可叠加在 GRPO/PPO 之上。
研究背景与动机¶
-
领域现状:LLM 后训练(RLHF/GRPO 等)能显著提升下游任务性能,但副作用是严重降低输出多样性——模型趋向于生成狭窄的"标准答案",丧失探索多种解题路径和个性化风格的能力。
-
现有痛点:现有促进多样性的方法集中在推理端(温度缩放、top-k 采样),或仅关注词汇级别差异(token 熵正则化),无法恢复基础模型分布中缺失的模态,也不能捕捉语义层面的多样性。
-
核心矛盾:如何在训练阶段定义一个既计算高效又理论严谨的语义多样性度量,并与质量目标平衡?简单的成对距离度量容易导致退化——模型可能只学到两个广泛分离的聚类。
-
本文要解决什么?:(a) 定义语义级别的多样性度量;(b) 避免成对距离的聚类退化;(c) 在训练中联合优化质量和多样性。
-
切入角度:利用 DPP 的行列式定义多样性——嵌入向量张成的平行体体积越大,多样性越高。行列式天然惩罚线性相关(聚类),克服成对距离的退化问题。
-
核心idea一句话:用 DPP 行列式作为语义多样性度量,奖励作为嵌入向量的缩放因子,通过 leave-one-out 梯度估计稳定训练。
方法详解¶
整体框架¶
在标准 RL 后训练目标中增加 DPP 多样性项。对每个 prompt \(x\),采样 \(k\) 个响应 \(y_{1:k}\),用预训练 embedding 模型 \(\phi\) 映射到语义空间,构造 Gram 矩阵 \(L_\phi(y_{1:k})[i,j] = \langle \phi(y_i), \phi(y_j) \rangle\),多样性得分为 \(\text{Div}(y_{1:k}) = \det(L_\phi(y_{1:k}))\)。
关键设计¶
- DPP 行列式多样性度量:
- 做什么:衡量一组响应在语义嵌入空间中的"体积"
- 核心思路:\(\det(L)\) 等于嵌入向量张成平行体的平方体积。向量越线性无关(语义越不同),行列式越大;如果形成聚类(线性相关),行列式趋近于零
-
设计动机:成对距离度量容易导致两个聚类伪多样性。行列式敏感于线性依赖性,能检测"看似距离大但实际落在低维子空间"的退化情况
-
质量-多样性联合目标:
- 做什么:\(J_{Div}(\pi_\theta) = \mathbb{E}[\sum_i r(x,y_i) + \alpha \log\det(L_\phi(y_{1:k})) - \beta \text{KL}(\pi_\theta || \pi_{ref})]\)
- 核心思路:最优策略可以表示为 \(\pi_{div}(y_{1:k}|x) \propto \det(L_\psi(x,y_{1:k}))\),其中 \(\psi(x,y) = \sqrt{\exp(r/\alpha)\pi_{ref}(y|x)} \cdot \phi(y)\) 是奖励增强嵌入。奖励作为嵌入向量的缩放因子(范数),语义作为方向
-
设计动机:提供了质量-多样性的几何解释——最大化体积需要向量既大(高质量)又正交(高多样性),与 D-最优实验设计理论一脉相承
-
Leave-one-out 梯度估计器:
- 做什么:稳定训练,降低梯度方差
- 核心思路:用 \(\log\frac{\det(L(y_{1:k})+I_k)}{\det(L(y_{-i})+I_{k-1})}\) 替代原始 \(\log\det(L)\)。加 \(I_k\) 保证值域有界 \([0, \log(1+k)]\);leave-one-out 减去不含第 \(i\) 个响应的基线
- 设计动机:原始 \(\log\det\) 在行列式接近零时值趋负无穷,导致训练不稳定。加单位阵正则化 + loo 基线同时解决稳定性和方差问题
损失函数 / 训练策略¶
- 可叠加在 GRPO(推理任务)或 PPO(非推理任务)之上
- 超参数 \(\alpha\) 控制质量-多样性权衡,\(k\) 控制每个 prompt 的采样数
- 使用奖励模型(而非 outcome reward)评分,避免 reward hacking(模型先给正确答案再生成随机内容骗多样性分)
实验关键数据¶
主实验¶
| 方法 | Dolly distinct-4↑ | Dolly self-rouge↑ | Dolly pass@1↑ | Dolly pass@10↑ |
|---|---|---|---|---|
| PPO | 0.64 | 0.49 | 5.65 | 8.39 |
| GRPO-likelihood | 0.70 | 0.54 | 5.86 | 8.50 |
| GRPO-entropy | 0.75 | 0.57 | 4.71 | 7.70 |
| DQO | 0.69 | 0.54 | 5.92 | 8.74 |
| 方法 | GSM8K distinct-4↑ | GSM8K self-rouge↑ | GSM8K pass@1↑ | GSM8K pass@10↑ |
|---|---|---|---|---|
| GRPO | 0.32 | 0.21 | 76.8 | 87.9 |
| GRPO-likelihood | 0.86 | 0.59 | 50.9 | 80.4 |
| GRPO-entropy | 0.38 | 0.25 | 77.0 | 92.6 |
| DQO | 0.42 | 0.31 | 76.3 | 91.2 |
消融实验¶
| \(\alpha\) | \(k\) | distinct-4↑ | pass@1↑ | pass@10↑ |
|---|---|---|---|---|
| 0 (PPO) | - | 0.64 | 5.65 | 8.39 |
| 0.5 | 4 | 0.69 | 5.84 | 8.79 |
| 1.0 | 4 | 0.69 | 5.92 | 8.74 |
| 2.0 | 4 | 0.75 | 5.27 | 7.86 |
关键发现¶
- DQO 是唯一在所有任务上同时保持高质量和高多样性的方法。GRPO-entropy 在 GSM8K 上多样性好但在 Dolly 上质量差
- DPP-determinant vs pairwise distance:城市推荐实验中,pairwise distance 导致两个聚类,determinant 产生真正广泛的多样性
- pass@n 随 n 增大时 DQO 优势更明显——多样性越高,大 n 下找到好答案的概率越高
- \(\alpha\) 过大(如 2.0)会牺牲 pass@1 质量
亮点与洞察¶
- DPP 行列式作为多样性度量解决了成对距离的退化问题,理论上与 D-最优实验设计相连。这个度量可迁移到任何需要集合多样性的场景(推荐系统、主动学习等)。
- leave-one-out 梯度估计器的有界性保证(Lemma 1)使训练稳定且对 \(k\) 鲁棒,是关键的工程贡献。
- 发现 outcome reward 容易被 reward hack(先答对再乱写),必须用奖励模型。
局限性 / 可改进方向¶
- 多样性依赖预训练 embedding 模型的质量,不同 embedding 可能导致不同结果
- \(k\) 个响应需要同时采样和计算行列式,增加训练 GPU 开销
- 在推理任务(GSM8K)上多样性提升有限,可能因为正确答案本身多样性空间有限
相关工作与启发¶
- vs GRPO-entropy (Yao et al.): token 级熵正则化无法捕捉语义多样性,且在非推理任务上质量下降严重
- vs GRPO-likelihood (He et al.): 基于生成概率的多样性在推理任务上效果差
- vs Chung et al.: 基于 DPO 的成对嵌入距离加权,易退化为聚类
评分¶
- 新颖性: ⭐⭐⭐⭐ DPP 与 LLM 后训练结合,理论联系实验设计
- 实验充分度: ⭐⭐⭐⭐ 4 类任务,多个多样性指标,消融完整
- 写作质量: ⭐⭐⭐⭐ 几何解释清晰,与 D-最优设计的联系有启发性
- 价值: ⭐⭐⭐⭐ 对 LLM 后训练多样性问题有实用贡献