Post-training Large Language Models for Diverse High-Quality Responses¶

会议: ICLR 2026
arXiv: 2509.04784
代码: https://github.com/fairytale9/diversity-quality-optimization
领域: 文本生成 / LLM后训练
关键词: 多样性, 行列式点过程, GRPO, 后训练, 质量-多样性权衡

一句话总结¶

提出 DQO（Diversity Quality Optimization），基于行列式点过程（DPP）在语义嵌入空间中定义多样性度量，将其与奖励信号联合优化，使 LLM 后训练同时提升语义多样性和响应质量，可叠加在 GRPO/PPO 之上。

研究背景与动机¶

领域现状：LLM 后训练（RLHF/GRPO 等）能显著提升下游任务性能，但副作用是严重降低输出多样性——模型趋向于生成狭窄的"标准答案"，丧失探索多种解题路径和个性化风格的能力。
现有痛点：现有促进多样性的方法集中在推理端（温度缩放、top-k 采样），或仅关注词汇级别差异（token 熵正则化），无法恢复基础模型分布中缺失的模态，也不能捕捉语义层面的多样性。
核心矛盾：如何在训练阶段定义一个既计算高效又理论严谨的语义多样性度量，并与质量目标平衡？简单的成对距离度量容易导致退化——模型可能只学到两个广泛分离的聚类。
本文要解决什么？：(a) 定义语义级别的多样性度量；(b) 避免成对距离的聚类退化；(c) 在训练中联合优化质量和多样性。
切入角度：利用 DPP 的行列式定义多样性——嵌入向量张成的平行体体积越大，多样性越高。行列式天然惩罚线性相关（聚类），克服成对距离的退化问题。
核心idea一句话：用 DPP 行列式作为语义多样性度量，奖励作为嵌入向量的缩放因子，通过 leave-one-out 梯度估计稳定训练。

方法详解¶

整体框架¶

在标准 RL 后训练目标中增加 DPP 多样性项。对每个 prompt \(x\)，采样 \(k\) 个响应 \(y_{1:k}\)，用预训练 embedding 模型 \(\phi\) 映射到语义空间，构造 Gram 矩阵 \(L_\phi(y_{1:k})[i,j] = \langle \phi(y_i), \phi(y_j) \rangle\)，多样性得分为 \(\text{Div}(y_{1:k}) = \det(L_\phi(y_{1:k}))\)。

关键设计¶

DPP 行列式多样性度量:
做什么：衡量一组响应在语义嵌入空间中的"体积"
核心思路：\(\det(L)\) 等于嵌入向量张成平行体的平方体积。向量越线性无关（语义越不同），行列式越大；如果形成聚类（线性相关），行列式趋近于零
设计动机：成对距离度量容易导致两个聚类伪多样性。行列式敏感于线性依赖性，能检测"看似距离大但实际落在低维子空间"的退化情况
质量-多样性联合目标:
做什么：\(J_{Div}(\pi_\theta) = \mathbb{E}[\sum_i r(x,y_i) + \alpha \log\det(L_\phi(y_{1:k})) - \beta \text{KL}(\pi_\theta || \pi_{ref})]\)
核心思路：最优策略可以表示为 \(\pi_{div}(y_{1:k}|x) \propto \det(L_\psi(x,y_{1:k}))\)，其中 \(\psi(x,y) = \sqrt{\exp(r/\alpha)\pi_{ref}(y|x)} \cdot \phi(y)\) 是奖励增强嵌入。奖励作为嵌入向量的缩放因子（范数），语义作为方向
设计动机：提供了质量-多样性的几何解释——最大化体积需要向量既大（高质量）又正交（高多样性），与 D-最优实验设计理论一脉相承
Leave-one-out 梯度估计器:
做什么：稳定训练，降低梯度方差
核心思路：用 \(\log\frac{\det(L(y_{1:k})+I_k)}{\det(L(y_{-i})+I_{k-1})}\) 替代原始 \(\log\det(L)\)。加 \(I_k\) 保证值域有界 \([0, \log(1+k)]\)；leave-one-out 减去不含第 \(i\) 个响应的基线
设计动机：原始 \(\log\det\) 在行列式接近零时值趋负无穷，导致训练不稳定。加单位阵正则化 + loo 基线同时解决稳定性和方差问题

损失函数 / 训练策略¶

可叠加在 GRPO（推理任务）或 PPO（非推理任务）之上
超参数 \(\alpha\) 控制质量-多样性权衡，\(k\) 控制每个 prompt 的采样数
使用奖励模型（而非 outcome reward）评分，避免 reward hacking（模型先给正确答案再生成随机内容骗多样性分）

实验关键数据¶

主实验¶

方法	Dolly distinct-4↑	Dolly self-rouge↑	Dolly pass@1↑	Dolly pass@10↑
PPO	0.64	0.49	5.65	8.39
GRPO-likelihood	0.70	0.54	5.86	8.50
GRPO-entropy	0.75	0.57	4.71	7.70
DQO	0.69	0.54	5.92	8.74

方法	GSM8K distinct-4↑	GSM8K self-rouge↑	GSM8K pass@1↑	GSM8K pass@10↑
GRPO	0.32	0.21	76.8	87.9
GRPO-likelihood	0.86	0.59	50.9	80.4
GRPO-entropy	0.38	0.25	77.0	92.6
DQO	0.42	0.31	76.3	91.2

消融实验¶

\(\alpha\)	\(k\)	distinct-4↑	pass@1↑	pass@10↑
0 (PPO)	-	0.64	5.65	8.39
0.5	4	0.69	5.84	8.79
1.0	4	0.69	5.92	8.74
2.0	4	0.75	5.27	7.86

关键发现¶

DQO 是唯一在所有任务上同时保持高质量和高多样性的方法。GRPO-entropy 在 GSM8K 上多样性好但在 Dolly 上质量差
DPP-determinant vs pairwise distance：城市推荐实验中，pairwise distance 导致两个聚类，determinant 产生真正广泛的多样性
pass@n 随 n 增大时 DQO 优势更明显——多样性越高，大 n 下找到好答案的概率越高
\(\alpha\) 过大（如 2.0）会牺牲 pass@1 质量

亮点与洞察¶

DPP 行列式作为多样性度量解决了成对距离的退化问题，理论上与 D-最优实验设计相连。这个度量可迁移到任何需要集合多样性的场景（推荐系统、主动学习等）。
leave-one-out 梯度估计器的有界性保证（Lemma 1）使训练稳定且对 \(k\) 鲁棒，是关键的工程贡献。
发现 outcome reward 容易被 reward hack（先答对再乱写），必须用奖励模型。

局限性 / 可改进方向¶

多样性依赖预训练 embedding 模型的质量，不同 embedding 可能导致不同结果
\(k\) 个响应需要同时采样和计算行列式，增加训练 GPU 开销
在推理任务（GSM8K）上多样性提升有限，可能因为正确答案本身多样性空间有限

评分¶

新颖性: ⭐⭐⭐⭐ DPP 与 LLM 后训练结合，理论联系实验设计
实验充分度: ⭐⭐⭐⭐ 4 类任务，多个多样性指标，消融完整
写作质量: ⭐⭐⭐⭐ 几何解释清晰，与 D-最优设计的联系有启发性
价值: ⭐⭐⭐⭐ 对 LLM 后训练多样性问题有实用贡献