跳转至

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

会议: NeurIPS 2025 (D&B Oral)
arXiv: 2510.22954
代码: 待确认
领域: AI 安全 / LLM 多样性
关键词: mode collapse, LM diversity, open-ended generation, Infinity-Chat, artificial hivemind, human preferences

一句话总结

构建了 Infinity-Chat 数据集(26K 开放式真实用户查询 + 31,250 条人类标注),揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重,并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

研究背景与动机

  1. 领域现状:LLM 在创意内容生成(如写故事、头脑风暴、提供建议)方面能力显著,但反复采样得到的结果往往高度相似。这种同质化可能通过长期暴露逐渐"同质化"人类思维。
  2. 现有痛点:评估 LM 输出多样性的方法极其有限——现有工作仅关注狭窄任务(如随机数生成、名字生成)或单一模型的重复采样,缺乏对真实世界开放式查询下多模型输出多样性的系统性评估。
  3. 核心矛盾:LLM 的训练(尤其是 RLHF/DPO 对齐阶段)鼓励模型收敛到"标准答案"——但开放式问题本身没有唯一正确答案,过度收敛意味着丢失了答案空间的多样性。
  4. 本文要解决什么:(1) 构建首个大规模开放式查询数据集用于多样性评估;(2) 系统量化 LM 的模型内和模型间同质化程度;(3) 研究人类对开放式内容的个体偏好差异及其对自动评估的影响。
  5. 切入角度:收集真实用户与 LM 交互的开放式查询,建立开放式问题分类体系,通过大规模交叉标注发现人类偏好的个体特异性。
  6. 核心 idea 一句话:LM 不仅个体重复(intra-model),不同 LM 之间也高度雷同(inter-model),形成"人工蜂群心智",且现有自动评估器对此现象视而不见。

方法详解

整体框架

整个工作分三部分:(1) 构建 Infinity-Chat 数据集——26K 多样化开放式查询 + 首个开放式问题分类体系(6 大类 17 子类);(2) 大规模 LM 多样性研究——对比多个 LM 在开放式生成中的模型内/模型间同质化程度;(3) 人类偏好研究——31,250 条标注(每个样本 25 个独立标注者)揭示集体 vs. 个体偏好差异。

关键设计

  1. Infinity-Chat 数据集构建
  2. 做什么:收集 26K 真实世界开放式用户查询
  3. 核心思路:从实际用户-LM 交互日志中筛选出无唯一正确答案的开放式查询,建立首个完整分类体系:6 大类(brainstorm & ideation、creative writing、recommendation、opinion & advice、planning、open-ended QA)+ 17 子类
  4. 设计动机:现有数据集要么规模小、要么限于封闭式任务,无法反映真实场景下 LM 多样性问题

  5. Mode Collapse 量化

  6. 做什么:系统测量 LM 输出的同质化程度
  7. 核心思路:对同一查询用同一模型多次采样(intra-model)以及用不同模型各采样一次(inter-model),通过语义相似度等指标量化同质化程度
  8. 设计动机:首次在大规模真实开放式任务上区分并量化 intra-model repetition 和 inter-model homogeneity

  9. 人类偏好的个体特异性分析

  10. 做什么:研究不同标注者对同一开放式回复的偏好差异
  11. 核心思路:每个样本收集 25 个独立标注(绝对评分 + 配对偏好),分析标注者一致性高 vs. 低的样本特征
  12. 设计动机:揭示自动评估(RM、LM Judge)的系统性盲区——它们在标注者偏好分歧大的样本上校准显著变差

训练策略

本文不涉及模型训练,属于分析性工作。核心贡献是数据集和实证发现。

实验设置中,对同一查询用同一模型多次采样(intra-model)以及用不同模型各采样一次(inter-model),通过语义相似度等指标量化同质化程度。每个样本收集 25 个独立标注者的绝对评分和配对偏好,用于分析集体与个体偏好的差异。

实验关键数据

数据集 Infinity-Chat 统计

指标 数值
开放式查询数 26K
分类体系 6 大类 + 17 子类
人类标注数 31,250
每样本标注者数 25

Mode Collapse 发现

现象 描述
Intra-model repetition 单一模型多次采样生成高度相似的回复
Inter-model homogeneity 不同模型(如 GPT-4、Claude、LLaMA)对同一开放式查询生成惊人相似的回复
影响因素 Inter-model 同质化比 intra-model 更为严重

自动评估校准

评估器 高一致性样本 低一致性样本 说明
Reward Model 校准良好 显著失调 当人类偏好分歧大时 RM 无法区分
LM Judge 校准良好 显著失调 同上

关键发现

  • Inter-model homogeneity 比 intra-model repetition 更值得关注:不同 LLM "想法趋同"可能是 RLHF/训练数据重叠的结果
  • 在标注者偏好高度一致的"简单"样本上,RM 和 LM Judge 表现与人类一致;但在个体偏好差异大的"主观"样本上,自动评估器系统性失准
  • 这种失准意味着:RLHF 使用的 RM 信号在主观性强的开放式任务上可能加剧同质化

亮点与洞察

  • "人工蜂群心智"概念:将 LM 模型间的同质化命名为 Artificial Hivemind,形象地说明了多个独立训练的 LM 却产生极其相似输出的现象,这个概念具有影响力和传播价值
  • 首个开放式问题分类体系:6 大类 17 子类的 taxonomy 填补了空白,为后续开放式生成评估提供了标准化分类框架
  • 揭示自动评估的系统性盲区:RM 和 LM Judge 在主观偏好分歧大的样本上失效,直接挑战了当前 alignment 训练范式

局限性 / 可改进方向

  • 仅限英文:数据集和分析限于英文 LM,其他语言及多语言混合场景的同质化程度可能显著不同
  • 缺乏解决方案:发现了问题但未提出缓解 Artificial Hivemind 效应的具体方法,后续工作需要提出可操作的多样性增强策略
  • 标注成本高:每样本 25 个独立标注者的设计虽严谨,但难以大规模复制到其他数据集或领域
  • 未区分同质化来源:inter-model homogeneity 可能源于训练数据重叠、模型架构趋同、或 RLHF 对齐目标相似,但本文未做因果分析
  • 仅关注开放式生成:封闭式任务(如编码、数学推理)的多样性问题未涉及,可能有不同的同质化模式
  • 改进方向:(1) 开发促进输出多样性的解码/训练方法(如个性化对齐、多样性正则化);(2) 研究训练数据重叠如何导致 inter-model homogeneity;(3) 设计对个体偏好敏感的 RM;(4) 建立 inter-model diversity 的标准量化指标

相关工作与启发

  • vs 传统多样性评估:传统工作用 n-gram 多样性或 self-BLEU 评估,本文引入语义级多样性评估 + 模型间对比,维度更全面
  • vs RLHF 对齐研究:对齐工作关注"模型是否符合人类偏好",本文指出"哪个人类的偏好?"——统一的 RM 可能抹杀个体偏好差异
  • 启发:这项工作对 alignment tax(对齐代价)提出了新的理解角度——对齐不仅可能降低模型能力,还可能系统性地减少输出多样性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统性揭示 inter-model homogeneity,概念新颖有影响力
  • 实验充分度: ⭐⭐⭐⭐ 大规模数据集+多模型对比+人类标注,受限于 abs-only 缺少消融细节
  • 写作质量: ⭐⭐⭐⭐ 问题表述清晰,Hivemind 隐喻精准
  • 价值: ⭐⭐⭐⭐⭐ NeurIPS Oral,数据集+发现对 AI safety 和 alignment 研究有深远影响