Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)¶
会议: NeurIPS 2025 (D&B Oral)
arXiv: 2510.22954
代码: 待确认
领域: AI 安全 / LLM 多样性
关键词: mode collapse, LM diversity, open-ended generation, Infinity-Chat, artificial hivemind, human preferences
一句话总结¶
构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。
研究背景与动机¶
- 领域现状:LLM 在创意内容生成(如写故事、头脑风暴、提供建议)方面能力显著,但反复采样得到的结果往往高度相似。这种同质化可能通过长期暴露逐渐"同质化"人类思维。
- 现有痛点:评估 LM 输出多样性的方法极其有限——现有工作仅关注狭窄任务(如随机数生成、名字生成)或单一模型的重复采样,缺乏对真实世界开放式查询下多模型输出多样性的系统性评估。
- 核心矛盾:LLM 的训练(尤其是 RLHF/DPO 对齐阶段)鼓励模型收敛到"标准答案"——但开放式问题本身没有唯一正确答案,过度收敛意味着丢失了答案空间的多样性。
- 本文要解决什么:(1) 构建首个大规模开放式查询数据集用于多样性评估;(2) 系统量化 LM 的模型内和模型间同质化程度;(3) 研究人类对开放式内容的个体偏好差异及其对自动评估的影响。
- 切入角度:收集真实用户与 LM 交互的开放式查询,建立开放式问题分类体系,通过大规模交叉标注发现人类偏好的个体特异性。
- 核心 idea 一句话:LM 不仅个体重复(intra-model),不同 LM 之间也高度雷同(inter-model),形成"人工蜂群心智",且现有自动评估器对此现象视而不见。
方法详解¶
整体框架¶
整个工作分三部分:(1) 构建 Infinity-Chat 数据集——26K 多样化开放式查询 + 首个开放式问题分类体系(6 大类 17 子类);(2) 大规模 LM 多样性研究——对比多个 LM 在开放式生成中的模型内/模型间同质化程度;(3) 人类偏好研究——31,250 条标注(每个样本 25 个独立标注者)揭示集体 vs. 个体偏好差异。
关键设计¶
- Infinity-Chat 数据集构建:
- 做什么:收集 26K 真实世界开放式用户查询
- 核心思路:从实际用户-LM 交互日志中筛选出无唯一正确答案的开放式查询,建立首个完整分类体系:6 大类(brainstorm & ideation、creative writing、recommendation、opinion & advice、planning、open-ended QA)+ 17 子类
-
设计动机:现有数据集要么规模小、要么限于封闭式任务,无法反映真实场景下 LM 多样性问题
-
Mode Collapse 量化:
- 做什么:系统测量 LM 输出的同质化程度
- 核心思路:对同一查询用同一模型多次采样(intra-model)以及用不同模型各采样一次(inter-model),通过语义相似度等指标量化同质化程度
-
设计动机:首次在大规模真实开放式任务上区分并量化 intra-model repetition 和 inter-model homogeneity
-
人类偏好的个体特异性分析:
- 做什么:研究不同标注者对同一开放式回复的偏好差异
- 核心思路:每个样本收集 25 个独立标注(绝对评分 + 配对偏好),分析标注者一致性高 vs. 低的样本特征
- 设计动机:揭示自动评估(RM、LM Judge)的系统性盲区——它们在标注者偏好分歧大的样本上校准显著变差
训练策略¶
本文不涉及模型训练,属于分析性工作。核心贡献是数据集和实证发现。
实验设置中,对同一查询用同一模型多次采样(intra-model)以及用不同模型各采样一次(inter-model),通过语义相似度等指标量化同质化程度。每个样本收集 25 个独立标注者的绝对评分和配对偏好,用于分析集体与个体偏好的差异。
实验关键数据¶
数据集 Infinity-Chat 统计¶
| 指标 | 数值 |
|---|---|
| 开放式查询数 | 26K |
| 分类体系 | 6 大类 + 17 子类 |
| 人类标注数 | 31,250 |
| 每样本标注者数 | 25 |
Mode Collapse 发现¶
| 现象 | 描述 |
|---|---|
| Intra-model repetition | 单一模型多次采样生成高度相似的回复 |
| Inter-model homogeneity | 不同模型(如 GPT-4、Claude、LLaMA)对同一开放式查询生成惊人相似的回复 |
| 影响因素 | Inter-model 同质化比 intra-model 更为严重 |
自动评估校准¶
| 评估器 | 高一致性样本 | 低一致性样本 | 说明 |
|---|---|---|---|
| Reward Model | 校准良好 | 显著失调 | 当人类偏好分歧大时 RM 无法区分 |
| LM Judge | 校准良好 | 显著失调 | 同上 |
关键发现¶
- Inter-model homogeneity 比 intra-model repetition 更值得关注:不同 LLM "想法趋同"可能是 RLHF/训练数据重叠的结果
- 在标注者偏好高度一致的"简单"样本上,RM 和 LM Judge 表现与人类一致;但在个体偏好差异大的"主观"样本上,自动评估器系统性失准
- 这种失准意味着:RLHF 使用的 RM 信号在主观性强的开放式任务上可能加剧同质化
亮点与洞察¶
- "人工蜂群心智"概念:将 LM 模型间的同质化命名为 Artificial Hivemind,形象地说明了多个独立训练的 LM 却产生极其相似输出的现象,这个概念具有影响力和传播价值
- 首个开放式问题分类体系:6 大类 17 子类的 taxonomy 填补了空白,为后续开放式生成评估提供了标准化分类框架
- 揭示自动评估的系统性盲区:RM 和 LM Judge 在主观偏好分歧大的样本上失效,直接挑战了当前 alignment 训练范式
局限性 / 可改进方向¶
- 仅限英文:数据集和分析限于英文 LM,其他语言及多语言混合场景的同质化程度可能显著不同
- 缺乏解决方案:发现了问题但未提出缓解 Artificial Hivemind 效应的具体方法,后续工作需要提出可操作的多样性增强策略
- 标注成本高:每样本 25 个独立标注者的设计虽严谨,但难以大规模复制到其他数据集或领域
- 未区分同质化来源:inter-model homogeneity 可能源于训练数据重叠、模型架构趋同、或 RLHF 对齐目标相似,但本文未做因果分析
- 仅关注开放式生成:封闭式任务(如编码、数学推理)的多样性问题未涉及,可能有不同的同质化模式
- 改进方向:(1) 开发促进输出多样性的解码/训练方法(如个性化对齐、多样性正则化);(2) 研究训练数据重叠如何导致 inter-model homogeneity;(3) 设计对个体偏好敏感的 RM;(4) 建立 inter-model diversity 的标准量化指标
相关工作与启发¶
- vs 传统多样性评估:传统工作用 n-gram 多样性或 self-BLEU 评估,本文引入语义级多样性评估 + 模型间对比,维度更全面
- vs RLHF 对齐研究:对齐工作关注"模型是否符合人类偏好",本文指出"哪个人类的偏好?"——统一的 RM 可能抹杀个体偏好差异
- 启发:这项工作对 alignment tax(对齐代价)提出了新的理解角度——对齐不仅可能降低模型能力,还可能系统性地减少输出多样性
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统性揭示 inter-model homogeneity,概念新颖有影响力
- 实验充分度: ⭐⭐⭐⭐ 大规模数据集+多模型对比+人类标注,受限于 abs-only 缺少消融细节
- 写作质量: ⭐⭐⭐⭐ 问题表述清晰,Hivemind 隐喻精准
- 价值: ⭐⭐⭐⭐⭐ NeurIPS Oral,数据集+发现对 AI safety 和 alignment 研究有深远影响