Investigating Counterfactual Unfairness in LLMs towards Identities through Humor¶

会议: ACL 2026
arXiv: 2604.18729
代码: GitHub (Code and Dataset 已提供)
领域: AI公平性 / LLM偏见
关键词: 反事实公平性, 幽默偏见, 身份偏见, LLM拒绝行为, 社会特权层级

一句话总结¶

本文通过幽默场景系统调查 LLM 的反事实不公平性——交换说话者/听众身份后观察模型行为变化，发现特权群体说的笑话被拒绝率高达 67.5%，被判定为恶意的概率高 64.7%，且社会危害评分高达 1.5 分（5分制），揭示了模型内化了固定的社会特权层级而非进行真正的社会推理。

研究背景与动机¶

领域现状：LLM 在高风险领域（招聘、教育、法律）日益部署，其编码的社会和文化偏见可能导致严重的社会危害。现有偏见研究主要关注去上下文化的偏见检测，忽视了会话角色和社会互动中的表征偏见。

现有痛点：(1) 幽默天然涉及社会感知的模糊地带——什么是可接受的取决于说话者和听众的身份；(2) 现有计算幽默研究忽视了会话上下文，未检验"当互动角色发生变化时意义如何转变"；(3) 缺乏量化 LLM 在身份互换下行为不对称性的系统方法。

核心矛盾：LLM 的安全对齐和偏见保护是双向的——模型不仅对特权群体施加更严格的审查，还通过过度保护边缘群体隐式地将其定性为脆弱，两者都强化了固定的社会层级。

本文目标：通过三个互补任务系统揭示 LLM 在幽默场景中的身份相关偏见：拒绝生成、意图推断和影响预测。

切入角度：利用反事实公平性原理——只改变敏感属性（说话者/听众身份）而保持其他因素不变，观察模型输出是否变化。幽默是特别敏感的探针，因为它迫使模型在模糊地带做出判断。

核心 idea：LLM 编码了固定的社会特权层级而非真正的社会推理——它们使用身份作为危害的代理信号，系统性地"向下打"的笑话被拒绝而"向上打"的被允许，创造了双向的表征危害。

方法详解¶

整体框架¶

三个任务追踪偏见在整个管道中的表现：Task 1（说话者-目标条件下的幽默生成拒绝）测试模型是否因身份配置不同而差异化拒绝；Task 2（说话者意图推断）在固定笑话内容下测试模型是否因身份不同而归因不同意图；Task 3（关系/社会影响预测）测试影响评估是否因身份不对称。覆盖 33 个身份、10 个类别、5 个 SOTA 模型。

关键设计¶

非对称拒绝率 (ARR) 和说话者效应 (SE) 指标:
- 功能：量化身份互换下模型行为的方向性偏见
- 核心思路：ARR = |RR(A→B) - RR(B→A)| 检测非交换的安全策略。SE(A→B) = RR(A→B) - RR(B) 隔离说话者身份对目标保护程度的放大/削弱效应。正 SE 表示指定说话者增加了拒绝率
- 设计动机：二元拒绝率不够——需要分离"方向性不对称"和"说话者独立效应"两个维度。ARR 检测层级，SE 检测放大效应
多粒度拒绝类型分析:
- 功能：揭示模型不仅在是否拒绝上有偏见，在如何拒绝上也有偏见
- 核心思路：将拒绝细分为直接拒绝、显式替代和隐式替代三种。发现 GPT-4o 对 White→Black 请求 62.7% 直接拒绝，对反向只有 25.0% 直接拒绝而 47.5% 提供替代笑话
- 设计动机：拒绝的"严厉程度"本身就是层级判断的表达——直接拒绝意味着"绝对不可以"，提供替代意味着"可以但需要修改"
身份无关 vs 身份特定贬损幽默数据集:
- 功能：分离身份标记本身的效应（即使笑话不涉及任何身份）vs 身份内容的效应
- 核心思路：身份无关数据集（400 条笑话，四种风格）证明即使笑话不包含任何身份标记，说话者-听众身份配置仍然影响模型判断。身份特定数据集（737 条贬损笑话）经严格过滤确保可在任意身份配对中使用
- 设计动机：如果偏见只出现在身份相关笑话中，可以归因于内容。但偏见出现在身份无关笑话中，证明模型使用身份本身作为判断信号

损失函数 / 训练策略¶

不涉及训练。评估 5 个 SOTA 模型（Claude 3.5 Haiku、GPT-4o、DeepSeek-Reasoner、Gemini 2.5 Flash-Lite、Grok 4），总计 48,400+ 次请求。用 GPT-4o 作为自动裁判评估拒绝行为。

实验关键数据¶

主实验¶

各类别最高 ARR（%）

类别	身份对	Claude	GPT	DeepSeek	Gemini	Grok
财富	poor, wealthy	67.5	58.8	61.3	27.5	3.8
健康	disabled, able-bodied	50.0	47.5	63.8	48.8	10.0
种族	Black, White	16.3	43.8	43.8	33.8	25.0

消融实验¶

Grok 4 vs 其他模型的 ARR 对比

模型	平均 ARR	说明
Claude 3.5 Haiku	38.1	最严格的安全对齐
DeepSeek-Reasoner	38.5	高不对称性
GPT-4o	33.3	中等
Gemini 2.5	27.1	相对温和
Grok 4	6.3	低审查但仍存在种族ARR

关键发现¶

所有模型一致地拒绝"向下打"（特权→边缘）的笑话，同时允许"向上打"——这映射了文化概念中的权力层级
模型隐式编码了争议性的特权判断：Chinese 被视为比 American 更弱势，janitor 比 software engineer 更弱势
Grok 4（低审查训练）的 ARR 显著降低但种族维度仍存在 25% 的 ARR——说明偏见部分来自训练数据而非安全对齐
负 SE 效应揭示"保护性歧视"——blind 和 janitor 说话者获得更大的创作自由度

亮点与洞察¶

"通过幽默看偏见"是一个绝妙的研究设计——幽默的社会敏感性迫使模型暴露其内化的社会假设，这在更直接的任务中可能被安全过滤器掩盖
ARR 和 SE 指标的设计很精巧——分离了方向性不对称和说话者放大效应两个正交的偏见维度
发现偏见的双向性是重要贡献——过度保护和过度审查都是偏见的表现形式，模型不是在做社会推理而是在做身份查表

局限与展望¶

仅评估英文场景，跨文化幽默规范差异巨大
身份类别的选择基于西方社会框架
最小对实验仅覆盖有限的认知标记类型
需要更多的防御和缓解策略探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 通过幽默探测偏见的框架设计极具创意，三任务追踪全管道
实验充分度: ⭐⭐⭐⭐⭐ 48400+请求, 5模型, 33身份, 10类别, 多指标
写作质量: ⭐⭐⭐⭐⭐ 发现引人深思，论述有力
价值: ⭐⭐⭐⭐⭐ 对AI安全和公平性研究有重要启示