跳转至

Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options

会议: ACL 2025
arXiv: 2409.00113
代码: GitHub
领域: ai_safety
关键词: reflective judgment, LLM alignment, multiple-choice, instruction following, critical reasoning

一句话总结

提出"反思判断力"(Reflective Judgment)概念来衡量 LLM 在所有选项都错误的选择题中拒绝选择的能力,发现对齐后的模型(GPT-4o 等)往往盲目服从指令选择错误选项,而基座模型反而表现更好,且该能力随模型规模增大而涌现。

研究背景与动机

  1. 领域现状:RLHF/DPO 等对齐技术旨在让 LLM 更"有帮助"(helpful),遵从用户指令。
  2. 现有痛点:过度优化"有帮助性"可能导致模型盲目服从错误指令——当所有选项都是错的时候,模型仍然会强行选一个而不是指出问题。
  3. 核心矛盾:有帮助性(按指令选择)与批判性推理(拒绝错误选项)之间存在根本张力,对齐技术意外地削弱了后者。
  4. 本文要解决什么? 量化评估 LLM 的"反思判断力"——在无正确选项时识别并拒绝选择的能力。
  5. 切入角度:设计所有选项都错误的选择题,在三种难度条件下测试(Easy: 明确告知可能无正确答案;Standard: 无提示;Hard: 强制要求选一个)。
  6. 核心 idea 一句话:对齐训练让模型变得更"听话"但更不会"说不",反思判断力是比帮助性更基础的能力。

方法详解

整体框架

构建三个数据集:BAD(基础算术,三个难度级别)、MMLU 子集(400 题跨领域知识)、MedMCQA(200 题高风险医疗决策)。每题只提供两个错误选项,在三种反思条件下测试。定义 Reflective Judgment Score = 反思性行动次数 / 总题数。

关键设计

  1. 三种反思条件(Reflection Conditions):
  2. Easy:明确告知"正确答案可能不在选项中"
  3. Standard:无额外提示
  4. Hard:要求必须从 A/B 中选一个
  5. 设计动机:测试模型在不同指令压力下的批判推理能力

  6. Reflective Judgment Score(RJ Score):

  7. 做什么:衡量模型拒绝选择错误答案或自行给出正确答案的比例
  8. 核心思路:RJ = 反思行为次数 / 总题数,反思行为包括指出无正确答案或给出未在选项中的正确答案

  9. 无理选项实验:

  10. 做什么:将选项替换为完全无关的名词(如"椅子""苹果"),测试极端情况下模型是否仍服从指令
  11. 结果:GPT-4o-mini 和 Claude 3 Haiku 仍然选择无理选项,Llama-405B 和 Qwen2-Math-7B 100% 拒绝

实验关键数据

主实验(BAD 数据集,Standard 条件)

模型 RJ Score 基线准确率 类型
GPT-4o 0.00% 100% RLHF
Claude 3 Sonnet 0.00% 90.9% RLHF
Qwen2-Math-7B Base 99.0% 100% Base
DeepSeekMath-7B RLHF 100% 100% RLHF
Llama 3.1-405B 42.5% 94.5% RLHF
Qwen2.5-32B Base 90.9% 100% Base

对齐影响对比

模型系列 Base RJ Instruct RJ RLHF RJ
Qwen2-Math-7B 99% - 16% (大幅下降)
Qwen2.5-7B 40.9% 0% (下降) 0%
DeepSeekMath-7B 92% 12% (下降) 100% (恢复)

关键发现

  • 对齐削弱反思判断:Qwen2-Math-7B Base RJ=99%,RLHF 版降至 16%
  • 规模涌现:Llama 3.1 从 8B(0%) → 70B(60%) → 405B(42.5%-100%),Qwen2.5 从 7B(40.9%) → 32B(90.9%)
  • 高风险≠更谨慎:医疗题目(MedMCQA)上的 RJ 与简单算术题类似,高风险场景未触发更多反思
  • CoT 大幅提升 RJ:使用 Chain-of-Thought 后 RJ 提升超过 85%
  • 人类也有同样问题:50 名参与者中 80%+ 在无正确选项时仍选择了错误选项
  • HH-RLHF 数据集:随机抽检 50 例发现 40%+ 的"preferred"答案是错误的

亮点与洞察

  • 揭示了对齐优化与批判推理能力之间的根本矛盾——"更有帮助"不等于"更正确"
  • 人类标注者也倾向于盲从指令,这种偏见通过 RLHF 数据传播到模型中,形成"偏见循环"
  • 反思判断力与安全性正相关:高 RJ 的模型在面对有害选项时也更能拒绝(Llama-405B 在 Hard 条件下 82% 拒绝率 vs GPT-4o-mini 60%)
  • DeepSeekMath 的对齐反而恢复了 RJ,说明精心设计的对齐可以兼顾帮助性和批判思维

局限性 / 可改进方向

  • 仅用二选一格式,未覆盖更多选项数
  • BAD 是人工构造的简单算术,与真实场景有差距
  • 人类实验仅 50 人,样本量有限
  • 未深入分析为什么某些对齐方法(如 DeepSeek RLHF)能保持 RJ

相关工作与启发

  • vs "None of the above" 研究: 前人添加"以上都不对"选项,本文更激进——完全不提供逃逸选项
  • vs 对齐安全性研究: 大多关注拒绝有害请求,本文关注拒绝"无害但错误"的指令
  • vs 模型校准研究: 校准关注置信度,本文关注是否有能力识别并拒绝错误前提

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "反思判断力"概念新颖,揭示对齐与推理的根本张力
  • 实验充分度: ⭐⭐⭐⭐ 20+模型、3 数据集、多消融,但数据集规模有限
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,人类实验增加说服力
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 对齐和安全研究有深刻启示