Conformity in Large Language Models¶

会议: ACL 2025 Main
arXiv: 2410.12428
代码: 无
领域: LLM行为分析 / AI Safety
关键词: 从众效应, LLM偏差, Asch实验, 不确定性, 干预策略

一句话总结¶

将心理学中的 Asch 从众实验范式迁移到 LLM 上，系统研究了 LLM 的从众行为（conformity），发现所有模型都会受多数意见影响改变答案，且不确定性越高越容易从众，并提出 Devil's Advocate 和 Question Distillation 两种干预方法有效缓解从众效应。

研究背景与动机¶

LLM 越来越多地被用作对话伙伴来辅助信息检索和决策。在这类场景中，用户可能会在对话中提供"多数人的意见"（如 "most people think the answer is X"），如果LLM因为多数意见而改变自己原本正确的回答，就会严重损害其可靠性。

这一现象类似于心理学中的Asch 从众实验（1951年）：被试在面对一群同盟者给出明显错误的答案后，也倾向于跟随错误答案。关键问题是：LLM 是否也存在类似的从众效应？

现有研究的不足：

Sycophancy（迎合性）研究已发现 RLHF 训练的模型会讨好用户，但这主要是一对一场景下的问题，与多方对话中的从众效应不同 2. 已有工作主要停留在现象识别层面，未深入分析影响因素（如模型不确定性、训练方式的影响）

缺乏缓解策略——发现了问题但没有提出解决方案

核心切入角度：借用经典心理学实验范式，不仅量化 LLM 从众程度，还要找出驱动因素并提出干预措施。

方法详解¶

整体框架¶

实验分三步： 1. Vanilla 轮：直接向 LLM 提问，获取其原始回答 2. Multi-party 轮：构造一个多方对话场景，其中多个"参与者"（由实验者控制）给出与 LLM 原始答案不同的回答，然后让 LLM 再次回答 3. 分析：比较两轮答案的变化，量化从众率（Conformity Rate）

关键设计¶

Asch 范式的 LLM 改编 (Adapted Asch Paradigm):
- 功能：构造模拟多方对话的 prompt，让 LLM 扮演实验参与者之一
- 核心思路：Prompt 模板为 "You are one of the participants in an experiment. There are N other participants who have given their answers..."。其中"其他参与者"的回答由实验者设定为一致的错误/不同答案，形成多数意见压力。定义从众率为： \(\text{Conformity Rate} = \frac{\text{改变答案的次数}}{\text{总测试次数}}\)
- 设计动机：直接模拟社会心理学经典实验，使结果可与人类实验对比。通过控制多数人数量、表述自然度等变量，系统研究影响因素
不确定性与从众的关系分析:
- 功能：首次建立 LLM 预测不确定性与从众倾向之间的定量关系
- 核心思路：使用模型输出 logits 计算 token 级别的不确定性（如预测概率的熵或 top-1 概率），然后分析不确定性与是否从众之间的相关性。将问题按模型不确定性分组，对比各组的从众率
- 设计动机：心理学研究表明人在不确定时更容易从众。验证 LLM 是否有类似模式——这对理解从众的机制很重要。如果不确定性是驱动因素，则可以通过提高模型confidence来缓解
影响因素探索:
- 功能：系统分析训练范式和输入特征对从众程度的影响
- 核心发现：
  - Instruction-tuned 模型比 base 模型更不容易从众：指令微调赋予了模型更强的"坚持己见"能力
  - 多数意见的表述越自然，从众越强：比起机械地列出"Participant 1: A, Participant 2: A..."，用自然语言表述意见（"I believe the answer is A because..."）更能诱导从众
  - 多数人数量增加会提升从众率：但存在饱和效应
- 设计动机：找出可控因素，为后续干预提供方向
两种干预策略:
- Devil's Advocate（魔鬼代言人）：
  - 功能：在多数意见中插入一个"唱反调"的少数派，支持 LLM 的原始答案
  - 核心思路：将一个"参与者"的回答设为与多数不同，打破完全一致的多数压力——这正是 Asch 原始实验中发现的关键缓解因素
  - 效果：显著降低从众率
- Question Distillation（问题蒸馏）：
  - 功能：让 LLM 先从多方对话中提取出核心问题，然后在"干净"的环境中重新回答
  - 核心思路：要求模型执行两步——首先 "What is the core question being discussed?"，然后 "Based only on your knowledge, what is the answer?" 通过分离问题和社会压力上下文来消除从众影响
  - 效果：有效降低从众率，且实现成本低

实验关键数据¶

主实验（跨模型从众率）¶

模型	从众率 (%)	原始正确率对应改变	原始错误对应改变	说明
Llama-3-8B	较高	正确→错误率高	也会从众	Base大模型从众严重
Llama-3-8B-Instruct	中等	有所改善	-	指令微调显著降低
Qwen2-7B	较高	-	-	同样存在从众
Qwen2-7B-Instruct	中等	-	-	指令微调有帮助
Gemma-2-9B	中-高	-	-	各模型均有从众
Mistral-v0.3-7B	较高	-	-	-

所有测试模型（包括不同规模和系列）都展现出不同程度的从众行为。

消融实验（影响因素）¶

输入变量	从众率变化	说明
Base vs Instruct	Instruct 降低 ~15-30%	指令微调显著增强"抗压能力"
多数人数 3→5→7	从众率递增	类似人类实验结果，但有饱和
机械语气 vs 自然语气	自然语气从众更高	自然表达更有说服力
Devil's Advocate 干预	从众率显著下降	少数派打破一致性很关键
Question Distillation 干预	从众率显著下降	分离问题和社会压力有效

关键发现¶

不确定性与从众强正相关：当模型对原始答案不确定时（通过 logits 衡量），从众率显著更高。这是本文最重要的发现，首次在 LLM 中建立了这一联系
从众是普遍现象：不分领域（科学、文学、历史等）、不分任务类型（选择题、判断题），所有模型均从众
从众不分对错：模型不仅在原始答案正确时会从众改为错误，在原始答案错误时也会从众改为另一个错误答案
两种干预均有效但机制不同：Devil's Advocate 通过打破多数一致性来缓解，Question Distillation 通过消除社会上下文来缓解

亮点与洞察¶

跨学科方法论创新：将经典心理学实验范式系统地迁移到 LLM 研究中，方法论清晰可复现
不确定性-从众关系的发现对 LLM 部署有实际意义：在 LLM 不确定时应降低外部意见的权重
两种干预策略成本极低：只需修改 prompt 即可应用，无需重训练模型
实验覆盖全面：4种模型 × base/instruct × 多个数据集 × 多个变量，实验设计规范

局限与展望¶

测试模型规模偏小（7B-9B），GPT-4 等大模型因 API 限制未能测试 logits 层面的不确定性
仅测试了选择题/判断题等封闭任务，开放式生成任务中的从众行为未探索
实验设置中"其他参与者"是虚构的，真实多轮对话中的从众动态可能更复杂
Question Distillation 需要额外一轮推理，增加了延迟
未分析从众在 RLHF/DPO 等对齐训练中可能被强化的机制
干预策略的鲁棒性——面对更自然、更隐蔽的社会压力时是否依然有效？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 LLM 从众效应并建立不确定性-从众关联
实验充分度: ⭐⭐⭐⭐ 实验设计规范全面，但模型规模可以更大
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，心理学背景与 NLP 实验结合得当
价值: ⭐⭐⭐⭐ 对 LLM 安全性和多 agent 系统设计有重要启示