Deontological Keyword Bias: The Impact of Modal Expressions on Normative Judgments of Language Models¶
会议: ACL 2025
arXiv: 2506.11068
领域: LLM 对齐 / AI 安全
关键词: 义务论关键词偏见, 模态表达, 规范性判断, LLM偏见, 去偏方法
一句话总结¶
本文揭示LLM存在"义务论关键词偏见"(DKB)——当提示中包含"must"、"ought to"等模态义务表达时,模型会将超过90%的常识场景误判为义务,并提出基于少样本示例与推理提示的去偏策略。
研究背景与动机¶
-
LLM的道德推理能力日益重要:随着LLM在现实世界中的应用扩展,其作为代理做出的规范性决策可能影响社会对"对"与"错"的理解。
-
义务判断的关键性:义务(obligation)判断是LLM行为决策的核心要素。与事实判断不同,义务判断的标准即便对人类也往往不明确。
-
人类与LLM的关键差异:
- 人类通过现实世界交互和结果想象来学习规范性判断
- LLM通过文本模式间接学习义务概念,缺乏与现实后果的直接交互
-
这导致LLM可能过度依赖语言线索(如模态表达)而非语境理解
-
核心假设:LLM的义务判断主要受模态义务表达(Modal Expressions)的影响,即使在不需要义务判断的场景中也是如此。
-
现实风险举例:"You should have an umbrella when it rains"——带伞是合理建议但非真正义务,LLM可能将其误判为义务。
方法详解¶
整体框架¶
研究围绕两个核心概念展开:
- DKE(Deontological Keyword Effect):模态义务表达导致义务判断增加的一般现象
- DKB(Deontological Keyword Bias):DKE的特殊情况——在人类不认为存在义务的场景中,模型因模态表达的存在而错误地判断为义务
数学定义:给定语义框架S、模态增强Z和问题格式Q,DKE成立当 f(Y_with_ME) > f(Y_without_ME) 在实例间一致成立。DKB特指S缺乏义务相关语义时的DKE。
关键设计¶
- 实验数据集设计:
- 义务论数据集(正标签):来自Hendrycks et al. (2021)的deontology数据集
- 常识数据集(负标签):用作非义务语境的控制组
- 道德数据集:来自Scherrer et al. (2023),包含高低模糊度两个子集
-
每个数据集445个样本,使用"must"、"ought to"、"should"、"have to"四种模态表达
-
多维度验证:
- 三个问题层级:一般(general)、明确(explicit)、严格(strict)
- 二元和连续评分两种答案格式
- 否定模态表达(如"must not")的影响
-
不同模态表达强度的比较
-
去偏方法——上下文推理(In-Context Reasoning):
- 结合少样本学习和推理提示的混合方法
- 少样本示例基于义务论语义(而非关键词)标注
- 义务论数据集的示例中移除模态表达
- 常识数据集的负标签示例中包含模态表达
实验关键数据¶
主实验¶
人类 vs GPT-4o 义务判断对比(0-5分):
| 条件 | 数据集 | 人类 | GPT-4o |
|---|---|---|---|
| 有模态表达 | 义务论 | 4.17 (0.50) | 4.95 (0.25) |
| 无模态表达 | 义务论 | 3.11 (1.44) | 0.30 (0.05) |
| 有模态表达 | 常识 | 3.33 (1.84) | 4.90 (0.10) |
| 无模态表达 | 常识 | 1.90 (1.05) | 0.10 (0.10) |
关键发现:常识数据集上GPT-4o在有模态表达时给出4.90分(人类仅3.33分),且方差极低(0.10),表明模型几乎机械性地将所有含模态表达的句子判定为义务。
DKB跨模型存在性验证(常识数据集,正比例判断比例):
| 模型 | 无ME | 有ME | 有否定ME |
|---|---|---|---|
| GPT-4o | 0.02 | 0.98 | 0.98 |
| GPT-4o-mini | 0.04 | 0.96 | 0.97 |
| Llama-3.1-70B | 0.01 | 0.86 | 0.87 |
| Llama-3.1-8B | 0.00 | 0.54 | 0.59 |
| Gemma-9B | 0.01 | 0.89 | 0.69 |
| Qwen-7B | 0.02 | 0.88 | 0.92 |
不同模态表达的偏见强度(常识数据集,跨模型平均):
| 模态表达 | 正判断比例 |
|---|---|
| must | 0.86 |
| ought to | 0.83 |
| should | 0.79 |
| have to | 0.64 |
偏见强度与义务论逻辑中的模态强度一致。
关键发现¶
-
DKB的普遍性:几乎所有测试LLM在常识数据集上,加入模态表达后正判断比例从不足5%飙升至50-98%。
-
否定模态表达同样导致偏见:否定形式(如"must not")也被判定为包含义务语义,在常识数据集上甚至比肯定形式的偏见更严重。
-
跨问题格式的一致性:DKB在一般、明确、严格三个问题层级和二元/连续评分格式中一致存在。
-
推理任务中的有限影响:在冲突场景推理(OCS)实验中,模态表达对推理结果的影响较小且不一致,说明关键词对判断和推理的影响可能不同。
-
去偏效果:少样本+推理提示的混合方法在常识数据集上将正判断比例从0.88降至0.28(2-shot + reasoning),显示有效的去偏潜力。
亮点与洞察¶
-
新现象的发现与定义:首次系统识别并形式化定义了"义务论关键词偏见"(DKB),填补了LLM道德推理研究中的重要空白。
-
与指令微调的关联:LLM经常被指令微调为遵循用户提示,这使其对模态义务表达特别敏感。当"must follow the instruction"等表达出现时,模型可能过度泛化其权威性。
-
训练数据中的偏见根源:以Alpaca RLHF数据集为例,"A picnic list should include items such as sandwiches"这类非义务论用法也会强化模态表达与义务语义的关联。
-
实际影响思考:随着LLM作为代理系统在现实中决策,区分法律强制、社会规范和建议的能力至关重要。
-
简洁有效的去偏方案:提出的无需训练的去偏方法简单实用,可作为实际部署的快速修补手段。
局限性¶
-
数据集规模有限:每个数据集仅445个样本,实验未覆盖所有可用模型。
-
语言局限:仅使用英语数据,其他语言或文化背景下是否存在类似偏见尚需验证。
-
去偏效果的量化不足:虽然去偏方法有效,但缺乏对其调整程度的定量评估。
-
缺少机制分析:未深入分析LLM内部知识表示中DKB的成因机制。
-
模态表达类型有限:仅测试四种模态表达,其他类型(如"need to"、"required to")未被覆盖。
相关工作¶
- 义务论逻辑:Von Wright (1951)符号义务论逻辑;Kant的绝对命令
- NLP中的义务检测:Chalkidis et al. (2018) RNN法规义务检测;Sun et al. (2023) DeonticBERT
- LLM偏见:Solaiman et al. (2019) 社会公平性偏见;Ladhak et al. (2023) 名称-文化纠缠
- LLM道德推理:Zhou et al. (2023), Rao et al. (2023) 伦理推理
评分¶
| 维度 | 分数 (1-10) | 说明 |
|---|---|---|
| 新颖性 | 9 | 首次识别和定义DKB这一重要现象 |
| 技术深度 | 7 | 以实证为主,形式化定义清晰 |
| 实验充分性 | 8 | 多模型、多维度、多条件的系统验证 |
| 写作质量 | 8 | 概念定义清晰,结构规范 |
| 实际影响 | 8 | 对AI安全和对齐研究有直接指导意义 |
| 总分 | 8.0 | 揭示重要偏见现象的高质量实证研究 |