Which Demographics Do LLMs Default to During Annotation?¶

会议: ACL2025 arXiv: 2410.08820 代码: uni-bamberg.de/nlproc/resources/llms-default-demographics 领域: llm_nlp 关键词: LLM annotation, demographic bias, socio-demographic prompting, perspectivism, placebo prompting, offensiveness, politeness

一句话总结¶

通过对比 LLM 在无人口统计信息(N)、有人口统计(SD)、安慰剂信息(P)三种 prompt 条件下的标注行为，揭示 LLM 在主观标注任务(冒犯性/礼貌性)中默认更接近白人、年轻、高学历群体的标注模式，且人口统计 prompting 确实产生了比安慰剂信息更系统性的影响。

研究背景与动机¶

领域现状：LLM 越来越多地被用于自动数据标注，尤其是零样本/少样本场景。然而标注本质上是主观的——不同人口统计背景的标注者对同一文本的冒犯性、礼貌性评价不同（如老年女性可能认为"bro"一词冒犯，但青少年男性觉得正常）。
现有痛点：LLM 标注缺乏人类标注者的多样性。之前的研究（Beck et al. 2024, Mukherjee et al. 2024）试图用人口统计 prompting 注入多样性，但未发现一致的模式，甚至认为 prompt 中的人口统计信息效果不显著。
核心矛盾：LLM 必然有某种"默认人设"——当不给定人口统计信息时，其标注行为更接近某些群体而非另一些。这种隐含偏见会导致少数群体观点被边缘化，但目前缺乏系统性的实证研究来量化这种默认偏见。
本文要解决什么：(RQ1) LLM 默认模仿哪些人口统计群体？(RQ2) 人口统计 prompting 的影响是否比安慰剂信息更显著？(RQ3) 任务属性（冒犯性 vs 礼貌性评分）如何影响人口统计信息的作用？(RQ4) 不同模型是否表现一致？
切入角度：使用 Popquorn 数据集（专门为研究标注者特征与标注差异而设计，包含详细人口统计信息），同时引入安慰剂 prompting 作为对照组，系统比较三种 prompt 条件下 LLM 的标注行为。
核心 idea 一句话：LLM 在无人口统计信息的标注中隐含地"默认"为更接近白人和年轻群体的视角，而人口统计 prompting 确实能产生比安慰剂信息更系统的行为变化。

方法详解¶

整体框架¶

设计三类 prompt（SD/P/N），在两个主观评分任务上（冒犯性 1-5、礼貌性 1-5），用两个 LLM（GPT-4o、Claude 3.5 Sonnet）进行标注，然后将 LLM 标注与具有详细人口统计信息的人类标注进行对比分析。

关键设计一：三类 Prompt 对照¶

做什么：设计社会人口统计（SD）、安慰剂（P）、无信息（N）三种 prompt 模板。 为什么：SD vs N 揭示人口统计信息的影响；P vs N 检测是否任意额外信息就能改变模型行为；SD vs P 对比人口统计信息的独特效应。 怎么做：

SD prompt：注入性别、种族、年龄、职业、学历等真实标注者属性，如"You are a person of gender [gender], race [race], age [age]..."
P prompt：注入无关属性（身高、星座、门牌号、爱好、最喜欢的颜色），如"You are a person of height [height], Zodiac sign [zodiac sign]..."
N prompt：不含任何人口统计信息，或使用"any gender, any race..."的通用描述
每种类型设计 2 个模板变体以检验模板稳定性

关键设计二：数据集选择——Popquorn¶

做什么：使用 Popquorn 数据集进行实验。 为什么：该数据集专为研究标注者人口统计属性对标注的影响而设计，包含 45000 条标注（1484 名标注者），含性别、种族、年龄、职业、学历等信息。 怎么做：

使用冒犯性评分（4500 条标注/1500 实例）和礼貌性评分（11151 条标注/3717 实例）两个子集
每个实例统一采样 3 名标注者，避免标注数量不均对分析的干扰
剔除拒绝披露人口统计信息的标注者

关键设计三：分析方法¶

做什么：用两种分析方法推断 LLM 的"默认人设"。 为什么：单一分析维度可能遗漏信息。 怎么做：

混合效应回归分析（Table 3）：以 LLM 标注与人类标注的距离为因变量，标注者人口统计为自变量，含随机截距（标注者和实例），检验哪些群体的标注与 LLM 默认输出差距最大
均值距离对比分析（Table 4）：计算 SD prompt 输出与 N prompt 输出的均值距离 Δμ，距离越大说明该人口统计值偏离模型默认越远

模型和成本¶

GPT-4o：$54；Claude 3.5 Sonnet：$60
每个实验仅运行一次（成本限制）
输出解析失败率极低（GPT-4o 22 例，Claude 3 例）

实验关键数据¶

主实验：LLM 默认人设的回归分析（Table 3）¶

人口统计属性	冒犯性(GPT-4o)	冒犯性(Claude)	礼貌性(GPT-4o)	礼貌性(Claude)
年龄（每增1岁）	+0.01	+0.01	0.00	0.00
种族（基准：白人）
黑人/非裔美国人	*+0.22	+0.19	+0.14	+0.15
亚裔	+0.09	+0.03	-0.08	0.00
西裔/拉丁裔	-0.11	-0.05	+0.09	+0.12
学历（基准：<高中）
大学学位	+0.05	-0.09	*-0.43	*-0.48
研究生学位	+0.06	-0.01	*-0.36	*-0.44
性别（基准：男性）
女性	0.00	-0.03	-0.05	-0.05
非二元	-0.06	-0.01	-0.05	-0.05

（正系数 = LLM 与该群体距离更远 = 不默认该群体；* p≤0.05, ** p≤0.01, *** p≤0.001）

消融：人口统计 Prompting 效应对比（Table 4 摘要）¶

属性	Δμ GPT-4o 冒犯性	Δμ Claude 冒犯性
男性	0.18	0.17
女性	0.20	0.15
非二元	0.29	0.17
白人	0.18	0.16
黑人/非裔	0.22	0.15
18-24岁	0.21	0.16
>65岁	0.20	0.15

（安慰剂 prompt 分数在各属性值间保持一致稳定，无系统性差异）

关键发现¶

种族偏见最显著：LLM 与黑人/非裔美国人标注者的距离显著大于白人（冒犯性任务 +0.19~0.22 Likert 点），说明 LLM 默认更接近白人视角
年龄效应：在冒犯性任务中，LLM 与年龄更大的标注者距离更远（p≤0.01），默认偏向年轻人
学历效应仅在礼貌性任务显著：LLM 与低学历群体距离更大（高达 0.57 点），默认偏向高学历视角
性别和职业无显著效应：模型在这两个维度上未表现出明确偏好
SD prompting > 安慰剂：人口统计 prompting 产生系统性预测变化，而安慰剂 prompt 的变化无特定方向性
礼貌性比冒犯性更受人口统计影响：GPT-4o 在礼貌性任务的平均预测差异（0.25）高于冒犯性（0.19）
Claude 特有模式：随年龄增大，Claude 在礼貌性任务上的预测差异从 0.16 增至 0.26

亮点与洞察¶

安慰剂对照设计：借鉴 Mukherjee et al. (2024) 的安慰剂概念（星座、门牌号等），巧妙地将人口统计 prompting 的效应与"任何额外信息"的效应区分开来
双分析法互补：回归分析（LLM vs 人类标注距离）和均值距离分析（SD vs N prompt 差异）从两个角度交叉验证，增强了结论可信度
与前人工作的矛盾发现：Beck et al. (2024) 和 Mukherjee et al. (2024) 报告人口统计 prompting 无一致效果，本文使用更适合的数据集（Popquorn）观察到了显著效应，说明数据集质量对研究结论至关重要
实际影响的审慎讨论：尽管统计显著，效应量相对 1-5 Likert 量表较小（< 0.5 点），作者对过度解读保持谨慎

局限性 / 可改进方向¶

仅 2 个模型、1 次运行：受预算限制（共 $114），每个实验仅运行一次，统计功效有限
数据集文化偏见：Popquorn 人口统计变量以美国社会为中心（如种族分类），不适用于其他文化
人口统计子群不均衡：非二元性别仅 124 个冒犯性标注样本，难以得出可靠结论
采样可能引入偏差：为统一每实例 3 名标注者而进行下采样，可能扭曲某些人口统计群体的代表性
缺乏事后统计检验：回归模型未进行同方差性和共线性的事后检验
效应量较小：观察到的差异在 0.1-0.5 Likert 点之间，实际应用中的意义尚需验证
仅 2 个任务：冒犯性和礼貌性都属情感/社会判断类任务，应扩展到命名实体识别、情感分析等更多任务

评分¶

新颖性: ⭐⭐⭐⭐ — 安慰剂+人口统计双对照设计有巧思，Popquorn 首次用于 LLM 分析
实验充分度: ⭐⭐⭐ — 仅 2 个模型、2 个任务、1 次运行，规模较小；但分析方法多样且互补
写作质量: ⭐⭐⭐⭐ — RQ 驱动结构清晰，相关工作覆盖全面，对局限性讨论坦诚
价值: ⭐⭐⭐⭐ — 对 LLM 标注公平性有实际警示意义，安慰剂对照方法值得推广