A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive¶

会议: ACL 2025 (Best Paper Award)
arXiv: 2402.11005
代码: 无
领域: LLM推理 / 认知科学 / AI安全
关键词: LLM采样机制, 描述性规范, 规范性规范, 认知启发式, 决策偏差

一句话总结¶

本文从认知科学视角揭示了LLM的采样启发式机制与人类决策类似：采样不仅反映概念的统计规范（描述性成分），还系统性地偏向隐含的理想值（规范性成分），这种偏移在500个概念、15个模型上均显著，并可能导致医疗等应用中的有偏决策。

背景与动机¶

当LLM被用作自主决策agent时，它们需要从庞大的行动空间中采样选项。人类在面对海量选项时会依赖启发式（System-1思维）来快速筛选——认知科学研究表明，人类的启发式同时受两个因素驱动：统计可能性（descriptive）和感知价值（prescriptive）。然而LLM的采样启发式机制长期缺乏系统研究。近期工作发现LLM虽然理解概率概念，但在概率采样方面表现不佳——它们生成的样本不能准确反映预期的概率分布。这种偏差的根源是什么？本文给出了一个系统性的解释框架。

核心问题¶

LLM在从概念的多个可能值中采样时，其内在的启发式规则是什么？这种采样启发式是否与人类认知中的"正常性"概念一致——即同时包含描述性成分（统计上什么是常见的）和规范性成分（什么是理想的/应该的）？如果LLM的采样确实存在隐含的规范性偏移，那么在医疗、政策等需要客观统计估计的场景中，这种偏差会带来什么风险？

方法详解¶

整体框架¶

论文设计了两类实验来验证"LLM采样 = 描述性 + 规范性"的理论： 1. 虚构概念实验（Section 3.1）：引入全新概念"glubbing"以排除预训练知识的干扰，通过精确控制描述性统计和规范性评分来隔离两个成分的效应 2. 现有概念实验（Section 3.2）：在500个真实世界概念（10个领域）上验证理论的普适性

输入是关于某个概念的统计分布信息；输出是LLM的三个报告值：平均值A(C)、理想值I(C)、采样值S(C)。核心指标α衡量采样值偏离平均值、朝向理想值的程度。

关键设计¶

虚构概念控制实验（"glubbing"实验）
给LLM展示100个从高斯分布（μ=45）采样的数值及对应成绩等级
三种条件：正向规范（高数值=好成绩）、负向规范（低数值=好成绩）、中性控制
关键发现：中性条件下S(C)≈A(C)≈45（p=0.52无显著差异）；正向条件下均值S(C)=46.72（p=0.003显著偏高）；负向条件下S(C)=36.50（p<0.001显著偏低）
多重鲁棒性检验：更换概念名（blorfing等10个虚构词）、不同采样提示、甚至显式去偏提示，结果一致
500概念大规模验证
10个领域（教育、健康、社交媒体、城市统计等）的500个概念
独立提示分别获取A(C)、I(C)、S(C)
二项检验：如果S(C)是否落在A(C)的理想侧。GPT-4中304/444个概念的采样值落在理想侧（p=5.06×10⁻¹⁵）
度量指标α = (A(C) - S(C)) × sign(A(C) - I(C))，正值表示向理想偏移
概念原型分析
借鉴Bear & Knobe (2017)的实验框架，用8个概念各6个范例测试LLM的原型评分
发现：LLM对"典型"例子的评分不仅反映统计平均性，还系统性偏向理想化版本（39/46落在理想侧，p<0.001）

实验设计亮点¶

用A(C)（LLM自报平均值）而非真实分布均值作基线，排除了"LLM不理解统计"的替代解释
无规范/随机规范的控制实验确认无显著偏移（p=0.51、0.52），证明偏移确实来自规范性成分
对比人类认知实验完全复制Bear et al. (2020)的设置，实现一对一比较

实验关键数据¶

模型	p-value	理想侧比例
Llama-2-7b	6.84e-02	0.539
Llama-2-70b-chat	1.58e-16	0.688
Llama-3-8b-Instruct	9.28e-22	0.716
Llama-3-70b-Instruct	5.38e-35	0.777
Claude	1.58e-16	0.688
Mixtral-8x7B	9.29e-22	0.716
GPT-4	5.51e-15	0.680

消融实验要点¶

模型规模效应：规范性偏移随模型规模增大而加强（逆向缩放现象）
RLHF效应：规范性成分在预训练中已存在，但RLHF进一步放大
提示鲁棒性：10种不同采样提示、显式去偏提示均无法消除规范性偏移
医疗案例：35组症状中，26次采样的恢复时间低于统计平均值（p=0.003），LLM系统性低估患者恢复时间

亮点¶

认知科学与AI的深度类比：不是简单的"LLM像人"类比，而是严格复用人类认知实验范式（Bear et al. 2020, Bear & Knobe 2017），实现了方法论层面的对齐
虚构概念设计极为巧妙：用"glubbing"这种不存在的概念完美隔离了预训练知识的干扰，是一个可迁移到其他LLM行为研究的实验范式
发现了"道德绝对主义"现象：人类对理想值的估计是温和的改进（如"理想每周含糖饮料"=2.41杯），而LLM频繁给出绝对理想值（如0杯），揭示了一种关键的人机差异
逆向缩放发现：模型越大偏差越大，这对"越大越好"的常规认知是一个重要警示

局限性 / 可改进方向¶

规范性成分的来源未明确：是来自预训练数据的统计偏差、RLHF的价值注入、还是其他训练因素？
未探索底层机制：规范性规范如何在Transformer的表示空间中编码和影响生成？
原型分析仅为初步探索，未使用表示层面的机械解释方法
主要使用API调用的闭源模型，对开源模型的表示层分析有限

与相关工作的对比¶

vs Gu et al. (2025)：后者发现LLM在概率采样上表现不佳，但未提供系统性解释框架；本文通过描述性+规范性二元理论解释了为什么LLM采样不准确
vs Bear et al. (2020) 人类认知研究：完美复用了实验范式，但发现LLM的规范性偏移幅度与人类不相关（Pearson ρ=-0.02），表明LLM虽有类似启发式但具体偏移模式不同
vs LLM偏差研究（Gallegos et al. 2024综述）：现有偏差研究聚焦性别/种族等社会偏差的表面分类，本文揭示了一个更底层的"规范性偏差"可能是这些表面偏差的根源

启发与关联¶

这个"描述性+规范性"框架可以迁移到分析LLM在其他任务中的偏差——例如推荐系统中的流行度偏差是否本质上是规范性偏移？
医疗案例研究直接关联AI安全：在LLM辅助诊断中，需要检测和校正规范性偏移以确保临床安全
α指标的定义方法可用于定量评估alignment对LLM采样行为的影响

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次建立LLM采样的认知科学理论框架，虚构概念实验设计极巧妙
实验充分度: ⭐⭐⭐⭐⭐ 15个模型、500个概念、10个领域、大量鲁棒性检验和对照实验
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，理论和实验紧密配合，与人类研究的对比流畅自然
价值: ⭐⭐⭐⭐⭐ Best Paper实至名归，揭示了LLM行为的一个基本规律，对安全和对齐研究有深远影响