Improving Model Alignment through Collective Intelligence of Open-Source LLMs¶

会议: ICML 2025
arXiv: 2505.03059
代码: 即将发布
领域: Human Understanding
关键词: model alignment, mixture of agents, 合成数据, 偏好优化, 自我改进

一句话总结¶

本文提出 Mixture of Agents Alignment（MoAA），利用多个开源 LLM 的集体智慧生成高质量的对齐数据（SFT 数据和偏好数据），显著提升目标模型在 Arena-Hard 和 AlpacaEval2 上的表现，并展示了无需外部强监督的自我提升能力。

研究背景与动机¶

领域现状: LLM 的对齐（alignment）——使模型输出有帮助（helpful）且无害（harmless）——依赖高质量的人工标注数据，用于监督微调（SFT）和偏好优化（DPO/RLHF）。

现有痛点: 人工标注数据昂贵、难以大规模生产，且可能存在多样性不足和标注者偏见的问题。已有的合成数据方法（如用 GPT-4 生成对齐数据）依赖单一强模型，生成数据的多样性受限，且形成了对闭源模型的依赖。

核心矛盾: 如何扩大对齐数据的规模和多样性，同时减少对单一强模型的依赖？开源模型的单体能力可能不如 GPT-4，但其集体智慧能否弥补这一差距？

本文目标: 利用多个开源 LLM 的协作来生成高质量的对齐数据。

切入角度: Mixture of Agents（MoA）思想——多个 LLM 各自生成回答，然后由聚合器综合不同回答的优点，产出比任何单一模型更好的最终回答。

核心 idea: 将 MoA 框架应用于对齐数据生成的两个阶段：(1) SFT 数据生成——多模型协作产出高质量指令-回答对，(2) 偏好数据生成——利用多模型的输出差异自然构造正负样本对。

方法详解¶

整体框架¶

输入：一组开源 LLM（如 LLaMA-3.1-70B, Qwen2-72B, Mixtral-8x22B 等），目标对齐模型（如 LLaMA-3.1-8B-Instruct）输出：对齐后性能大幅提升的目标模型

Pipeline: 1. MoA-SFT: 用多模型协作生成 SFT 训练数据 → 微调目标模型 2. MoA-DPO: 用多模型输出构造偏好对 → 偏好优化

关键设计¶

MoA 响应生成（MoA Response Generation）:
- 功能：对每个指令 prompt，让多个 LLM 各自生成回答，然后用聚合模型综合为最终回答
- 核心思路：第一层——\(K\) 个 LLM 各自生成回答 \(\{r_1, \ldots, r_K\}\)；第二层——聚合器模型收到所有回答和原始指令，生成综合回答 \(r^*\)
- 设计动机：不同模型有不同的知识和"个性"（如有的擅长推理，有的擅长写作），MoA 可以集成这些互补优势
MoA-SFT 数据构造:
- 功能：用 MoA 生成的高质量回答作为 SFT 训练目标
- 核心思路：\((prompt, r^*_{\text{MoA}})\) 作为训练对。MoA 回答质量优于任何单一模型，因此微调后的模型可以超越其训练数据来源
- 设计动机：替代 GPT-4 标注，同时提供更高的多样性
MoA-DPO 偏好数据构造:
- 功能：利用多模型输出的质量差异构造偏好对
- 核心思路：MoA 综合回答 \(r^*\) 作为 chosen（正样本），各单模型的回答中较差的 \(r_{\text{worst}}\) 作为 rejected（负样本）
- 设计动机：不需要外部评估器（如人类或 GPT-4），偏好信号来自模型集合的内部比较
自我提升 Pipeline（Self-Improvement Pipeline）:
- 功能：用 MoAA 微调后的模型作为下一轮的 MoA 参与者
- 核心思路：迭代 \(t\): 用当前模型参与 MoA → 生成更好的训练数据 → 微调 → 新模型再参与 MoA
- 设计动机：这形成了一个正反馈循环——模型能力提升 → 生成更好数据 → 进一步提升

损失函数 / 训练策略¶

SFT 阶段：标准的 next-token cross-entropy loss
DPO 阶段：\(\mathcal{L}_{\text{DPO}} = -\log \sigma\left(\beta \log \frac{\pi_\theta(r_w|x)}{\pi_{\text{ref}}(r_w|x)} - \beta \log \frac{\pi_\theta(r_l|x)}{\pi_{\text{ref}}(r_l|x)}\right)\)

实验关键数据¶

主实验¶

模型	指标	MoAA	GPT-4o 蒸馏	自身数据	基线 (无对齐)
LLaMA-3.1-8B-Instruct → Arena-Hard	Win Rate	48.3	42.1	31.5	19.5
LLaMA-3.1-8B-Instruct → AlpacaEval2	Win Rate	57.23	49.8	35.4	22.33
LLaMA-3.1-8B-Instruct → MT-Bench	平均分	8.12	7.85	7.21	6.58

消融实验¶

配置	Arena-Hard WR	AlpacaEval2 WR	说明
MoAA (SFT + DPO)	48.3	57.23	完整方法
仅 MoA-SFT	39.7	45.6	DPO 贡献约 8-12 WR
仅 MoA-DPO	35.2	41.8	SFT 基础重要
单模型 (GPT-4o) SFT	42.1	49.8	MoA 优于单一强模型
单模型 (LLaMA-70B) SFT	33.8	38.2	单个开源模型不够
自我提升 (2 轮)	51.2	60.1	正反馈循环有效

关键发现¶

MoAA 使 LLaMA-3.1-8B 的 Arena-Hard Win Rate 从 19.5 提升至 48.3（+28.8）
多开源模型协作生成的数据质量超过 GPT-4o 单独生成的数据
自我提升是可行的——第 2 轮迭代进一步提升 3-4 WR
MoA-SFT 和 MoA-DPO 互补，缺一不可
参与 MoA 的模型越多样（不同家族），效果越好

亮点与洞察¶

实用价值高: 完全基于开源模型，无需依赖 GPT-4
自我提升: 展示了开源 LLM 生态通过协作突破个体能力上限的可能性
方法简洁: MoA + SFT + DPO 的流程简单直接，易于复现

局限与展望¶

自我提升是否会遇到"天花板效应"（模型集合无法提供超越自身的信号）有待长期验证
MoA 的计算开销是参与模型数的线性倍——需要同时运行 3-5 个 70B 模型
安全性（harmlessness）方面的评估不够充分
未讨论 MoAA 生成数据的质量控制和过滤策略

评分¶

新颖性: ⭐⭐⭐⭐ MoA+对齐的组合新颖，但各组件（MoA, SFT, DPO）已知
实验充分度: ⭐⭐⭐⭐⭐ 多个顶级基准测试，消融全面，自我提升验证
写作质量: ⭐⭐⭐⭐ 方法描述清晰，实验结果令人信服
价值: ⭐⭐⭐⭐⭐ 对开源 LLM 生态发展有重要推动