跳转至

Dropouts in Confidence: Moral Uncertainty in Human-LLM Alignment

会议: AAAI 2026
arXiv: 2511.13290
代码: GitHub
领域: LLM推理
关键词: 道德推理, LLM对齐, 不确定性, Dropout, Moral Machine

一句话总结

系统研究 32 个开源 LLM 在道德困境(电车问题)中的决策不确定性,发现不确定性主要受模型架构而非道德维度驱动;在推理时引入 attention dropout 增加随机性后,模型的互信息显著上升,human-LLM 道德对齐度也随之改善——表明降低 LLM 在道德场景中的过度自信可以改善与人类偏好的一致性。

研究背景与动机

  1. 领域现状:LLM 正被越来越多地嵌入伦理决策场景,但人类面对道德困境时表现出显著的不确定性和犹豫,而 LLM 倾向于产生过度自信的回答。
  2. 现有痛点:LLM 的道德决策过于果断——在模糊的伦理场景中也给出高置信度回答,这种过度自信扭曲了与人类偏好的对齐,且放大了认知偏差。先前研究已发现 AI 的决策系统性偏好不行动、表现出更强的利他行为。
  3. 核心问题:(a) 如何量化 LLM 在道德困境中的决策不确定性?(b) 这种不确定性来源于模型差异还是道德维度差异?(c) 调控不确定性能否改善人机道德对齐?
  4. 切入角度:将二元熵作为道德决策不确定性的数学度量,分解为总熵、条件熵和互信息三个分量,并通过推理时 dropout 人为引入随机性来观察对齐效果的变化。
  5. 核心 idea:LLM 在道德困境中的过度自信是对齐不良的一个原因;通过在 attention 层引入 dropout 增加模型的"犹豫",可以使其决策分布更接近人类的不确定性模式,从而改善道德对齐。

方法详解

整体框架

基于 Moral Machine 实验框架(经典电车问题的自动驾驶变体),在 9 个道德维度(功利主义、年龄、性别、体质、法律等)上收集 32 个开源 LLM 的二元决策概率,然后: 1. 量化不确定性(二元熵分解) 2. 引入推理时 dropout 调控不确定性 3. 测量人机对齐变化

关键设计

  1. 二元决策与不确定性量化
  2. 做什么:将道德困境转化为二元选择,从 logit 中提取 \(p(c|x)\) 概率
  3. 定义置信度 \(\Delta p^2 = (2p-1)^2\),不确定性为二元熵 \(\mathbb{H}(p)\)
  4. 将总熵分解为三个分量:(a) 总熵 TE = \(\mathbb{H}(\mathbb{E}[p])\);(b) 条件熵 CE = \(\mathbb{E}[\mathbb{H}(p)]\);(c) 互信息 MI = TE - CE
  5. 设计动机:总熵反映群体决策的整体不确定性,条件熵反映模型对单个场景的固有犹豫,互信息反映模型对不同场景的区分度

  6. 推理时 Attention Dropout

  7. 做什么:在 attention 层的 softmax 后引入 dropout(率 \(r \in \{0.05, 0.1\}\)),在推理时为注意力权重增加随机性
  8. 公式:\(\text{Attention}(Q,K,V) = \text{dropout}(\sigma(\frac{QK^T}{\sqrt{d_k}} + M), r) V\)
  9. 设计动机:Dropout 引入的随机性模拟了人类在道德困境中的不确定性——让模型对自己的判断不那么"笃定",从而产生更接近人类的分散决策分布

  10. 人机对齐度量

  11. 人类偏好向量 \(\vec{\delta}_h\) 来自原始 Moral Machine 实验数据(AMCE 分析)
  12. LLM 偏好向量 \(\vec{\delta}_m\) 来自 10K 随机场景的聚合响应
  13. 对齐分数 = \(L_2\) 距离 \(\|\vec{\delta}_h - \vec{\delta}_m\|_2\)\(\Delta L_2 < 0\) 表示对齐改善

实验关键数据

主实验:不确定性的来源

  • 跨模型方差 > 跨维度方差:同一道德维度内不同模型的置信度差异远大于同一模型跨不同维度的差异。说明道德不确定性主要由模型架构和训练方法决定,而非道德问题本身
  • Gemma 家族模型普遍高置信度,Llama 家族相对低置信度

Dropout 对不确定性的影响

Dropout率 总熵(TE) 条件熵(CE) 互信息(MI)
0.00 基线 基线 基线
0.05 ↑ 显著(p<0.05) ≈ 不变(ns) ↑ 显著(p<0.05)
0.10 ↑↑ 显著(p<0.05) ≈ 不变(ns) ↑↑ 显著(p<0.05)

Dropout 对对齐的影响(部分模型 \(\Delta L_2\)

模型 基线\(L_2\) dropout=0.05 dropout=0.10
Llama-3.1-70B 0.703 0.673 (-0.03) 0.550 (-0.15)
Llama-3.1-8B 1.570 1.528 (-0.04) 1.264 (-0.31)
Phi-4 0.989 0.946 (-0.04) 0.790 (-0.20)
Qwen3-8B 1.796 1.733 (-0.06) 1.335 (-0.46)
Qwen3-1.7B 1.808 1.663 (-0.15) 1.300 (-0.51)
  • \(\Delta L_2 < 0\) 表示对齐改善(更接近人类偏好),多数模型在 dropout 后对齐显著改善
  • Qwen3-1.7B 改善最大(-0.51),Llama-3.1-70B 绝对对齐度最好(0.550)

关键发现

  • 过度自信是对齐不良的原因之一:高置信度模型(如 Gemma 家族)在道德维度上与人类差距更大
  • 不确定性主要由模型架构决定:同一道德维度内跨模型差异远大于同一模型跨维度差异
  • Dropout 增加的是"场景敏感性"(互信息)而非"内在犹豫"(条件熵)——模型不是更"迷茫",而是更能区分不同场景
  • 不确定性与对齐的关系不是线性的——某些已高度对齐的大模型在增加 dropout 后对齐度反而略降
  • Gemma家族普遍高置信度,Llama家族相对低置信度——模型家族间一致性高于跨维度差异

亮点与洞察

  • 将信息论工具(熵分解为 TE/CE/MI)应用于道德推理分析是很好的方法论贡献。MI 增加但 CE 不变的发现尤其有趣——说明 dropout 不是让模型"更混乱",而是让模型"更敏感"于道德场景的具体细节,这和人类的道德推理模式更接近
  • "降低自信就能改善对齐"这一反直觉发现有重要的实际意义——暗示未来的安全对齐方法或许应该在道德敏感场景中主动引入不确定性,而非追求确定性答案

局限性 / 可改进方向

  • 仅基于 Moral Machine 的电车问题变体,这是一个高度简化的道德框架(二元选择),无法代表现实中更复杂的伦理情境
  • Dropout 是一种粗暴的不确定性引入方式,可能对模型的其他能力产生副作用(如推理准确性),但论文未评估这一影响
  • 人类偏好数据来自 2018 年的 Moral Machine 实验,可能存在文化和时间偏差
  • 只测试了开源模型,闭源模型(如 GPT-4、Claude)的行为未知

相关工作与启发

  • vs Takemoto 等人的 Moral Machine LLM 框架:他们提出了对齐度量方法,本文在此基础上增加了不确定性分析和 dropout 干预,发现不确定性与对齐之间的因果关系
  • vs Cheung 等人(omission bias 研究):发现 LLM 系统性偏好不行动可能源于微调实践,本文从不确定性角度提供了互补解释——过度自信可能掩盖了模型在"行动 vs 不行动"维度上的真实偏好
  • vs 传统校准方法(温度调节等):温度调节改变整体输出分布,dropout 更细粒度地作用于注意力层面——且本文发现其效果体现在 MI 而非 CE,说明机制不同

评分

  • 新颖性: ⭐⭐⭐⭐ 将信息论不确定性分解应用于道德推理对齐是新颖视角,dropout 改善对齐的发现有启发性
  • 实验充分度: ⭐⭐⭐⭐ 32 个模型×9 个维度的大规模分析,统计检验严谨
  • 写作质量: ⭐⭐⭐⭐ 信息论框架推导清晰,可视化丰富
  • 价值: ⭐⭐⭐⭐ 为 LLM 道德对齐提供了新思路——主动引入不确定性而非追求确定性
  • 综合: 信息论视角分析道德对齐的有价值探索,dropout改善对齐的发现有重要实践意义