跳转至

Deontological Keyword Bias: The Impact of Modal Expressions on Normative Judgments of Language Models

会议: ACL 2025
arXiv: 2506.11068
领域: LLM 对齐 / AI 安全
关键词: 义务论关键词偏见, 模态表达, 规范性判断, LLM偏见, 去偏方法

一句话总结

本文揭示LLM存在"义务论关键词偏见"(DKB)——当提示中包含"must"、"ought to"等模态义务表达时,模型会将超过90%的常识场景误判为义务,并提出基于少样本示例与推理提示的去偏策略。

研究背景与动机

  1. LLM的道德推理能力日益重要:随着LLM在现实世界中的应用扩展,其作为代理做出的规范性决策可能影响社会对"对"与"错"的理解。

  2. 义务判断的关键性:义务(obligation)判断是LLM行为决策的核心要素。与事实判断不同,义务判断的标准即便对人类也往往不明确。

  3. 人类与LLM的关键差异

  4. 人类通过现实世界交互和结果想象来学习规范性判断
  5. LLM通过文本模式间接学习义务概念,缺乏与现实后果的直接交互
  6. 这导致LLM可能过度依赖语言线索(如模态表达)而非语境理解

  7. 核心假设:LLM的义务判断主要受模态义务表达(Modal Expressions)的影响,即使在不需要义务判断的场景中也是如此。

  8. 现实风险举例:"You should have an umbrella when it rains"——带伞是合理建议但非真正义务,LLM可能将其误判为义务。

方法详解

整体框架

研究围绕两个核心概念展开:

  • DKE(Deontological Keyword Effect):模态义务表达导致义务判断增加的一般现象
  • DKB(Deontological Keyword Bias):DKE的特殊情况——在人类不认为存在义务的场景中,模型因模态表达的存在而错误地判断为义务

数学定义:给定语义框架S、模态增强Z和问题格式Q,DKE成立当 f(Y_with_ME) > f(Y_without_ME) 在实例间一致成立。DKB特指S缺乏义务相关语义时的DKE。

关键设计

  1. 实验数据集设计
  2. 义务论数据集(正标签):来自Hendrycks et al. (2021)的deontology数据集
  3. 常识数据集(负标签):用作非义务语境的控制组
  4. 道德数据集:来自Scherrer et al. (2023),包含高低模糊度两个子集
  5. 每个数据集445个样本,使用"must"、"ought to"、"should"、"have to"四种模态表达

  6. 多维度验证

  7. 三个问题层级:一般(general)、明确(explicit)、严格(strict)
  8. 二元和连续评分两种答案格式
  9. 否定模态表达(如"must not")的影响
  10. 不同模态表达强度的比较

  11. 去偏方法——上下文推理(In-Context Reasoning)

  12. 结合少样本学习和推理提示的混合方法
  13. 少样本示例基于义务论语义(而非关键词)标注
  14. 义务论数据集的示例中移除模态表达
  15. 常识数据集的负标签示例中包含模态表达

实验关键数据

主实验

人类 vs GPT-4o 义务判断对比(0-5分):

条件 数据集 人类 GPT-4o
有模态表达 义务论 4.17 (0.50) 4.95 (0.25)
无模态表达 义务论 3.11 (1.44) 0.30 (0.05)
有模态表达 常识 3.33 (1.84) 4.90 (0.10)
无模态表达 常识 1.90 (1.05) 0.10 (0.10)

关键发现:常识数据集上GPT-4o在有模态表达时给出4.90分(人类仅3.33分),且方差极低(0.10),表明模型几乎机械性地将所有含模态表达的句子判定为义务。

DKB跨模型存在性验证(常识数据集,正比例判断比例):

模型 无ME 有ME 有否定ME
GPT-4o 0.02 0.98 0.98
GPT-4o-mini 0.04 0.96 0.97
Llama-3.1-70B 0.01 0.86 0.87
Llama-3.1-8B 0.00 0.54 0.59
Gemma-9B 0.01 0.89 0.69
Qwen-7B 0.02 0.88 0.92

不同模态表达的偏见强度(常识数据集,跨模型平均):

模态表达 正判断比例
must 0.86
ought to 0.83
should 0.79
have to 0.64

偏见强度与义务论逻辑中的模态强度一致。

关键发现

  1. DKB的普遍性:几乎所有测试LLM在常识数据集上,加入模态表达后正判断比例从不足5%飙升至50-98%。

  2. 否定模态表达同样导致偏见:否定形式(如"must not")也被判定为包含义务语义,在常识数据集上甚至比肯定形式的偏见更严重。

  3. 跨问题格式的一致性:DKB在一般、明确、严格三个问题层级和二元/连续评分格式中一致存在。

  4. 推理任务中的有限影响:在冲突场景推理(OCS)实验中,模态表达对推理结果的影响较小且不一致,说明关键词对判断和推理的影响可能不同。

  5. 去偏效果:少样本+推理提示的混合方法在常识数据集上将正判断比例从0.88降至0.28(2-shot + reasoning),显示有效的去偏潜力。

亮点与洞察

  1. 新现象的发现与定义:首次系统识别并形式化定义了"义务论关键词偏见"(DKB),填补了LLM道德推理研究中的重要空白。

  2. 与指令微调的关联:LLM经常被指令微调为遵循用户提示,这使其对模态义务表达特别敏感。当"must follow the instruction"等表达出现时,模型可能过度泛化其权威性。

  3. 训练数据中的偏见根源:以Alpaca RLHF数据集为例,"A picnic list should include items such as sandwiches"这类非义务论用法也会强化模态表达与义务语义的关联。

  4. 实际影响思考:随着LLM作为代理系统在现实中决策,区分法律强制、社会规范和建议的能力至关重要。

  5. 简洁有效的去偏方案:提出的无需训练的去偏方法简单实用,可作为实际部署的快速修补手段。

局限性

  1. 数据集规模有限:每个数据集仅445个样本,实验未覆盖所有可用模型。

  2. 语言局限:仅使用英语数据,其他语言或文化背景下是否存在类似偏见尚需验证。

  3. 去偏效果的量化不足:虽然去偏方法有效,但缺乏对其调整程度的定量评估。

  4. 缺少机制分析:未深入分析LLM内部知识表示中DKB的成因机制。

  5. 模态表达类型有限:仅测试四种模态表达,其他类型(如"need to"、"required to")未被覆盖。

相关工作

  • 义务论逻辑:Von Wright (1951)符号义务论逻辑;Kant的绝对命令
  • NLP中的义务检测:Chalkidis et al. (2018) RNN法规义务检测;Sun et al. (2023) DeonticBERT
  • LLM偏见:Solaiman et al. (2019) 社会公平性偏见;Ladhak et al. (2023) 名称-文化纠缠
  • LLM道德推理:Zhou et al. (2023), Rao et al. (2023) 伦理推理

评分

维度 分数 (1-10) 说明
新颖性 9 首次识别和定义DKB这一重要现象
技术深度 7 以实证为主,形式化定义清晰
实验充分性 8 多模型、多维度、多条件的系统验证
写作质量 8 概念定义清晰,结构规范
实际影响 8 对AI安全和对齐研究有直接指导意义
总分 8.0 揭示重要偏见现象的高质量实证研究