跳转至

Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

会议: ACL 2026 Findings arXiv: 2604.18005 代码: https://github.com/Xtra-Computing/MAS_Diversity 领域: LLM Agent 关键词: 多智能体系统, 多样性崩溃, 结构耦合, 创意生成, 协作拓扑

一句话总结

本文通过评估超过 10,000 个研究提案,从模型智能、智能体认知和系统动力学三个层次系统揭示了多智能体 LLM 系统中的"多样性崩溃"现象:更强的模型、权威驱动的角色分配和密集的通信拓扑都会抑制语义多样性,根本原因是交互结构而非模型能力不足。

研究背景与动机

领域现状:多智能体系统(MAS)越来越多地用于开放式创意生成(如科研假设提出、战略规划、创意设计),其背后的期望是多个智能体的集体交互能拓宽探索空间。MAS 框架通常给不同 agent 分配不同角色/视角,期望通过碰撞产生多样化的想法。

现有痛点:(1) MAS 是否真的比单模型生成更多样化?这一假设从未被系统验证;(2) 现有 MAS 框架通常基于同质的底层模型(共享预训练分布和对齐目标),多智能体交互可能只是放大了共享先验而非引入真正的多样性;(3) 什么条件下 MAS 会"适得其反"——不仅没有扩大解空间反而导致过早收敛?

核心矛盾:直觉上更多交互应该产生更多样化的结果,但实际上交互本身可能是多样性损失的根源。更多的协作导致更多的相互影响、轨迹同步化,最终触发多样性崩溃。

本文目标:从模型层、认知层、系统层三个自下而上的层次,系统诊断 MAS 创意生成中的多样性问题。

切入角度:以"科研提案生成"作为创意生成的标准化任务,因为它既有开放性又有结构约束,适合量化评估。设计了 20 个主题 × 50 个独立讨论 = 1000 个提案/配置。

核心 idea:多样性崩溃是一种由"结构耦合"(structural coupling)驱动的集体失败——交互结构无意中收缩了智能体的探索空间,而非模型能力不足。

方法详解

整体框架

构建通用的多智能体交互框架,包含三个阶段:角色实例化(给 agent 分配不同 persona)、迭代讨论(在特定拓扑下多轮对话)、提案合成(将讨论汇总为结构化研究提案)。然后从三个层次分析多样性:模型智能(不同 LLM 的单模型多样性)、智能体认知(不同角色/权威结构的影响)、系统动力学(群体大小/轮次/拓扑的影响)。

关键设计

  1. 多维度多样性度量体系:

    • 功能:全面量化创意的语义多样性
    • 核心思路:使用四个互补指标——Vendi Score(基于核矩阵谱熵衡量有效独立语义模式数)、结构无序度 \(1-\phi\)(个体与群体均值的平均余弦距离,低值表示回声室效应)、语义离散度 PCD(成对余弦距离均值)、词汇独特性(IDF 加权 n-gram 统计)。通过人工评估验证,Vendi Score 与人类判断一致率达 87%
    • 设计动机:单一指标无法全面捕捉多样性,需要从有效模式数、分布形态、成对距离、表面冗余四个角度综合评估
  2. 三层次分析框架:

    • 功能:自下而上地诊断多样性崩溃的根因
    • 核心思路:模型层——发现"计算效率悖论":更强的对齐模型产出质量更高但边际多样性递减。认知层——比较五种协作结构(朴素/领导驱动/水平/跨学科/垂直),发现权威驱动的结构抑制多样性,初级研究者主导的水平协作多样性最高(Vendi 8.08 vs 跨学科 4.65)。系统层——群体规模增大带来递减回报(Vendi/N 从 1.03 降至 0.47),密集通信拓扑加速过早收敛
    • 设计动机:将复杂的多智能体动力学问题分解为可独立分析的层次,便于精确定位问题根源
  3. 拓扑干预实验(NGT / Subgroups):

    • 功能:验证过程干预能否缓解多样性崩溃
    • 核心思路:比较标准讨论、名义群体技术(NGT,先独立"盲写"再讨论)和子组拓扑(将社交图划分为局部子组)。NGT 在初始阶段最大化多样性,子组在后期保持最高的建设性冲突密度
    • 设计动机:如果问题根源在交互结构,那么通过改变交互方式应该能缓解崩溃——实验结果确实如此

实验关键数据

主实验

认知结构 Vendi Score 语义离散度 结构无序度 整体质量
水平协作 (初级) 8.08 0.31 0.170 7.88
垂直协作 (混合) 6.93 0.296 0.161 8.32
领导驱动 6.08 0.285 0.154 8.03
朴素协作 5.57 0.272 0.146 7.95
跨学科 4.65 0.25 0.19 8.50

消融实验

配置 Vendi Score 多样性利用率 说明
N=3 agents ~3.1 1.03 基线,效率高
N=5 agents ~3.8 0.76 递减回报开始
N=7 agents ~3.3 0.47 严重递减
标准拓扑 - 多样性持续下降
NGT 拓扑 初始高 - 盲写阶段有效
子组拓扑 后期高 - 保持建设性冲突

关键发现

  • 计算效率悖论:更强的对齐模型(如 GPT-5.1)单样本质量更高但多样性更低,对齐本质上是一种全局语义正则化,压缩了探索空间
  • 权威抑制多样性:初级研究者主导的水平协作比跨学科专家组多样性高 73%(Vendi 8.08 vs 4.65),但质量差距仅 0.6 分(10分制),说明权威导致"谄媚陷阱"
  • 系统动态中的 Ringelmann 效应:增加 agent 数量的边际多样性收益急剧下降,类似于人类群体中的"社会懈怠"
  • "共识内扩展"模式:单次会话中多样性可以局部增加(讨论深化),但跨会话的多样性却在收缩(结构收敛)

亮点与洞察

  • "结构耦合"理论框架:提出了一个统一的解释——多样性崩溃不是因为模型不够强,而是因为交互结构本身就会收缩探索空间。这一洞察对所有 MAS 设计者都有警示意义
  • 质量-多样性的非对称关系:跨学科团队质量最高但多样性最低,说明优化质量和优化多样性是不同的目标,需要显式权衡
  • 实验规模和严谨性:10,000+ 提案、20 个主题、多种拓扑/认知结构/模型的全面交叉实验,并经过人工验证,实证基础非常扎实
  • 子组拓扑作为多样性保护策略:通过创建"局部分歧口袋"来抵抗过早共识,可直接应用于现实 MAS 设计

局限与展望

  • 仅以"科研提案生成"为任务,结论是否推广到代码生成、创意写作等其他开放式任务有待验证
  • 所有 agent 共享相同的底层 LLM,异构模型集合的效果未充分探索
  • 评估依赖嵌入空间的语义度量,可能遗漏某些类型的概念创新
  • 论文较长(56 页),核心发现可以更简洁地呈现
  • 未提出系统性的解决方案,更多是诊断问题

相关工作与启发

  • vs Du et al. (2024) 的多智能体辩论: 辩论框架假设交互能改善推理,本文证明在创意任务中交互可能适得其反
  • vs Wang et al. (2025a) 的回声室效应: 本文将回声室效应从社交媒体推广到 LLM 多智能体系统,并提供了定量分析
  • vs Moon et al. (2025): 同样关注 MAS 中的多样性问题,但本文的三层次分析更系统,实验规模更大

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性地揭示 MAS 创意生成中的多样性崩溃问题,提出"结构耦合"理论
  • 实验充分度: ⭐⭐⭐⭐⭐ 10,000+ 提案、20 主题、多维度交叉分析、人工验证,极为充分
  • 写作质量: ⭐⭐⭐⭐ 分析深入,可视化优秀,但篇幅过长
  • 价值: ⭐⭐⭐⭐⭐ 对 MAS 设计有重要指导意义,"更多协作不等于更多多样性"的结论具有广泛影响