Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)¶

会议: NeurIPS 2025 (D&B Oral)
arXiv: 2510.22954
代码: 待确认
领域: AI 安全 / LLM 多样性
关键词: mode collapse, LM diversity, open-ended generation, Infinity-Chat, artificial hivemind, human preferences

一句话总结¶

构建了 Infinity-Chat 数据集（26K 开放式真实用户查询 + 31,250 条人类标注），揭示了 LM 在开放式生成中的"Artificial Hivemind"效应——模型内重复和模型间同质化严重，并发现 Reward Model 和 LM Judge 在个体偏好差异大的样本上校准失败。

研究背景与动机¶

领域现状：LLM 在创意内容生成（如写故事、头脑风暴、提供建议）方面能力显著，但反复采样得到的结果往往高度相似。这种同质化可能通过长期暴露逐渐"同质化"人类思维。
现有痛点：评估 LM 输出多样性的方法极其有限——现有工作仅关注狭窄任务（如随机数生成、名字生成）或单一模型的重复采样，缺乏对真实世界开放式查询下多模型输出多样性的系统性评估。
核心矛盾：LLM 的训练（尤其是 RLHF/DPO 对齐阶段）鼓励模型收敛到"标准答案"——但开放式问题本身没有唯一正确答案，过度收敛意味着丢失了答案空间的多样性。
本文要解决什么：(1) 构建首个大规模开放式查询数据集用于多样性评估；(2) 系统量化 LM 的模型内和模型间同质化程度；(3) 研究人类对开放式内容的个体偏好差异及其对自动评估的影响。
切入角度：收集真实用户与 LM 交互的开放式查询，建立开放式问题分类体系，通过大规模交叉标注发现人类偏好的个体特异性。
核心 idea 一句话：LM 不仅个体重复（intra-model），不同 LM 之间也高度雷同（inter-model），形成"人工蜂群心智"，且现有自动评估器对此现象视而不见。

方法详解¶

整体框架¶

整个工作分三部分：(1) 构建 Infinity-Chat 数据集——26K 多样化开放式查询 + 首个开放式问题分类体系（6 大类 17 子类）；(2) 大规模 LM 多样性研究——对比多个 LM 在开放式生成中的模型内/模型间同质化程度；(3) 人类偏好研究——31,250 条标注（每个样本 25 个独立标注者）揭示集体 vs. 个体偏好差异。

关键设计¶

Infinity-Chat 数据集构建：
做什么：收集 26K 真实世界开放式用户查询
核心思路：从实际用户-LM 交互日志中筛选出无唯一正确答案的开放式查询，建立首个完整分类体系：6 大类（brainstorm & ideation、creative writing、recommendation、opinion & advice、planning、open-ended QA）+ 17 子类
设计动机：现有数据集要么规模小、要么限于封闭式任务，无法反映真实场景下 LM 多样性问题
Mode Collapse 量化：
做什么：系统测量 LM 输出的同质化程度
核心思路：对同一查询用同一模型多次采样（intra-model）以及用不同模型各采样一次（inter-model），通过语义相似度等指标量化同质化程度
设计动机：首次在大规模真实开放式任务上区分并量化 intra-model repetition 和 inter-model homogeneity
人类偏好的个体特异性分析：
做什么：研究不同标注者对同一开放式回复的偏好差异
核心思路：每个样本收集 25 个独立标注（绝对评分 + 配对偏好），分析标注者一致性高 vs. 低的样本特征
设计动机：揭示自动评估（RM、LM Judge）的系统性盲区——它们在标注者偏好分歧大的样本上校准显著变差

训练策略¶

本文不涉及模型训练，属于分析性工作。核心贡献是数据集和实证发现。

实验设置中，对同一查询用同一模型多次采样（intra-model）以及用不同模型各采样一次（inter-model），通过语义相似度等指标量化同质化程度。每个样本收集 25 个独立标注者的绝对评分和配对偏好，用于分析集体与个体偏好的差异。

实验关键数据¶

数据集 Infinity-Chat 统计¶

指标	数值
开放式查询数	26K
分类体系	6 大类 + 17 子类
人类标注数	31,250
每样本标注者数	25

Mode Collapse 发现¶

现象	描述
Intra-model repetition	单一模型多次采样生成高度相似的回复
Inter-model homogeneity	不同模型（如 GPT-4、Claude、LLaMA）对同一开放式查询生成惊人相似的回复
影响因素	Inter-model 同质化比 intra-model 更为严重

自动评估校准¶

评估器	高一致性样本	低一致性样本	说明
Reward Model	校准良好	显著失调	当人类偏好分歧大时 RM 无法区分
LM Judge	校准良好	显著失调	同上

关键发现¶

Inter-model homogeneity 比 intra-model repetition 更值得关注：不同 LLM "想法趋同"可能是 RLHF/训练数据重叠的结果
在标注者偏好高度一致的"简单"样本上，RM 和 LM Judge 表现与人类一致；但在个体偏好差异大的"主观"样本上，自动评估器系统性失准
这种失准意味着：RLHF 使用的 RM 信号在主观性强的开放式任务上可能加剧同质化

亮点与洞察¶

"人工蜂群心智"概念：将 LM 模型间的同质化命名为 Artificial Hivemind，形象地说明了多个独立训练的 LM 却产生极其相似输出的现象，这个概念具有影响力和传播价值
首个开放式问题分类体系：6 大类 17 子类的 taxonomy 填补了空白，为后续开放式生成评估提供了标准化分类框架
揭示自动评估的系统性盲区：RM 和 LM Judge 在主观偏好分歧大的样本上失效，直接挑战了当前 alignment 训练范式

局限性 / 可改进方向¶

仅限英文：数据集和分析限于英文 LM，其他语言及多语言混合场景的同质化程度可能显著不同
缺乏解决方案：发现了问题但未提出缓解 Artificial Hivemind 效应的具体方法，后续工作需要提出可操作的多样性增强策略
标注成本高：每样本 25 个独立标注者的设计虽严谨，但难以大规模复制到其他数据集或领域
未区分同质化来源：inter-model homogeneity 可能源于训练数据重叠、模型架构趋同、或 RLHF 对齐目标相似，但本文未做因果分析
仅关注开放式生成：封闭式任务（如编码、数学推理）的多样性问题未涉及，可能有不同的同质化模式
改进方向：(1) 开发促进输出多样性的解码/训练方法（如个性化对齐、多样性正则化）；(2) 研究训练数据重叠如何导致 inter-model homogeneity；(3) 设计对个体偏好敏感的 RM；(4) 建立 inter-model diversity 的标准量化指标

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性揭示 inter-model homogeneity，概念新颖有影响力
实验充分度: ⭐⭐⭐⭐ 大规模数据集+多模型对比+人类标注，受限于 abs-only 缺少消融细节
写作质量: ⭐⭐⭐⭐ 问题表述清晰，Hivemind 隐喻精准
价值: ⭐⭐⭐⭐⭐ NeurIPS Oral，数据集+发现对 AI safety 和 alignment 研究有深远影响