Deontological Keyword Bias: The Impact of Modal Expressions on Normative Judgments of Language Models¶

会议: ACL 2025
arXiv: 2506.11068
领域: LLM 对齐 / AI 安全
关键词: 义务论关键词偏见, 模态表达, 规范性判断, LLM偏见, 去偏方法

一句话总结¶

本文揭示LLM存在"义务论关键词偏见"(DKB)——当提示中包含"must"、"ought to"等模态义务表达时，模型会将超过90%的常识场景误判为义务，并提出基于少样本示例与推理提示的去偏策略。

LLM的道德推理能力日益重要：随着LLM在现实世界中的应用扩展，其作为代理做出的规范性决策可能影响社会对"对"与"错"的理解。
义务判断的关键性：义务(obligation)判断是LLM行为决策的核心要素。与事实判断不同，义务判断的标准即便对人类也往往不明确。
人类与LLM的关键差异：
人类通过现实世界交互和结果想象来学习规范性判断
LLM通过文本模式间接学习义务概念，缺乏与现实后果的直接交互
这导致LLM可能过度依赖语言线索（如模态表达）而非语境理解
核心假设：LLM的义务判断主要受模态义务表达（Modal Expressions）的影响，即使在不需要义务判断的场景中也是如此。
现实风险举例："You should have an umbrella when it rains"——带伞是合理建议但非真正义务，LLM可能将其误判为义务。

研究围绕两个核心概念展开：

DKE（Deontological Keyword Effect）：模态义务表达导致义务判断增加的一般现象
DKB（Deontological Keyword Bias）：DKE的特殊情况——在人类不认为存在义务的场景中，模型因模态表达的存在而错误地判断为义务

数学定义：给定语义框架S、模态增强Z和问题格式Q，DKE成立当 f(Y_with_ME) > f(Y_without_ME) 在实例间一致成立。DKB特指S缺乏义务相关语义时的DKE。

人类 vs GPT-4o 义务判断对比（0-5分）：

条件	数据集	人类	GPT-4o
有模态表达	义务论	4.17 (0.50)	4.95 (0.25)
无模态表达	义务论	3.11 (1.44)	0.30 (0.05)
有模态表达	常识	3.33 (1.84)	4.90 (0.10)
无模态表达	常识	1.90 (1.05)	0.10 (0.10)

关键发现：常识数据集上GPT-4o在有模态表达时给出4.90分（人类仅3.33分），且方差极低（0.10），表明模型几乎机械性地将所有含模态表达的句子判定为义务。

DKB跨模型存在性验证（常识数据集，正比例判断比例）：

模型	无ME	有ME	有否定ME
GPT-4o	0.02	0.98	0.98
GPT-4o-mini	0.04	0.96	0.97
Llama-3.1-70B	0.01	0.86	0.87
Llama-3.1-8B	0.00	0.54	0.59
Gemma-9B	0.01	0.89	0.69
Qwen-7B	0.02	0.88	0.92

不同模态表达的偏见强度（常识数据集，跨模型平均）：

偏见强度与义务论逻辑中的模态强度一致。

新现象的发现与定义：首次系统识别并形式化定义了"义务论关键词偏见"（DKB），填补了LLM道德推理研究中的重要空白。
与指令微调的关联：LLM经常被指令微调为遵循用户提示，这使其对模态义务表达特别敏感。当"must follow the instruction"等表达出现时，模型可能过度泛化其权威性。
训练数据中的偏见根源：以Alpaca RLHF数据集为例，"A picnic list should include items such as sandwiches"这类非义务论用法也会强化模态表达与义务语义的关联。
实际影响思考：随着LLM作为代理系统在现实中决策，区分法律强制、社会规范和建议的能力至关重要。
简洁有效的去偏方案：提出的无需训练的去偏方法简单实用，可作为实际部署的快速修补手段。