Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options¶
会议: ACL 2025
arXiv: 2409.00113
代码: GitHub
领域: ai_safety
关键词: reflective judgment, LLM alignment, multiple-choice, instruction following, critical reasoning
一句话总结¶
提出"反思判断力"(Reflective Judgment)概念来衡量 LLM 在所有选项都错误的选择题中拒绝选择的能力,发现对齐后的模型(GPT-4o 等)往往盲目服从指令选择错误选项,而基座模型反而表现更好,且该能力随模型规模增大而涌现。
研究背景与动机¶
- 领域现状:RLHF/DPO 等对齐技术旨在让 LLM 更"有帮助"(helpful),遵从用户指令。
- 现有痛点:过度优化"有帮助性"可能导致模型盲目服从错误指令——当所有选项都是错的时候,模型仍然会强行选一个而不是指出问题。
- 核心矛盾:有帮助性(按指令选择)与批判性推理(拒绝错误选项)之间存在根本张力,对齐技术意外地削弱了后者。
- 本文要解决什么? 量化评估 LLM 的"反思判断力"——在无正确选项时识别并拒绝选择的能力。
- 切入角度:设计所有选项都错误的选择题,在三种难度条件下测试(Easy: 明确告知可能无正确答案;Standard: 无提示;Hard: 强制要求选一个)。
- 核心 idea 一句话:对齐训练让模型变得更"听话"但更不会"说不",反思判断力是比帮助性更基础的能力。
方法详解¶
整体框架¶
构建三个数据集:BAD(基础算术,三个难度级别)、MMLU 子集(400 题跨领域知识)、MedMCQA(200 题高风险医疗决策)。每题只提供两个错误选项,在三种反思条件下测试。定义 Reflective Judgment Score = 反思性行动次数 / 总题数。
关键设计¶
- 三种反思条件(Reflection Conditions):
- Easy:明确告知"正确答案可能不在选项中"
- Standard:无额外提示
- Hard:要求必须从 A/B 中选一个
-
设计动机:测试模型在不同指令压力下的批判推理能力
-
Reflective Judgment Score(RJ Score):
- 做什么:衡量模型拒绝选择错误答案或自行给出正确答案的比例
-
核心思路:RJ = 反思行为次数 / 总题数,反思行为包括指出无正确答案或给出未在选项中的正确答案
-
无理选项实验:
- 做什么:将选项替换为完全无关的名词(如"椅子""苹果"),测试极端情况下模型是否仍服从指令
- 结果:GPT-4o-mini 和 Claude 3 Haiku 仍然选择无理选项,Llama-405B 和 Qwen2-Math-7B 100% 拒绝
实验关键数据¶
主实验(BAD 数据集,Standard 条件)¶
| 模型 | RJ Score | 基线准确率 | 类型 |
|---|---|---|---|
| GPT-4o | 0.00% | 100% | RLHF |
| Claude 3 Sonnet | 0.00% | 90.9% | RLHF |
| Qwen2-Math-7B Base | 99.0% | 100% | Base |
| DeepSeekMath-7B RLHF | 100% | 100% | RLHF |
| Llama 3.1-405B | 42.5% | 94.5% | RLHF |
| Qwen2.5-32B Base | 90.9% | 100% | Base |
对齐影响对比¶
| 模型系列 | Base RJ | Instruct RJ | RLHF RJ |
|---|---|---|---|
| Qwen2-Math-7B | 99% | - | 16% (大幅下降) |
| Qwen2.5-7B | 40.9% | 0% (下降) | 0% |
| DeepSeekMath-7B | 92% | 12% (下降) | 100% (恢复) |
关键发现¶
- 对齐削弱反思判断:Qwen2-Math-7B Base RJ=99%,RLHF 版降至 16%
- 规模涌现:Llama 3.1 从 8B(0%) → 70B(60%) → 405B(42.5%-100%),Qwen2.5 从 7B(40.9%) → 32B(90.9%)
- 高风险≠更谨慎:医疗题目(MedMCQA)上的 RJ 与简单算术题类似,高风险场景未触发更多反思
- CoT 大幅提升 RJ:使用 Chain-of-Thought 后 RJ 提升超过 85%
- 人类也有同样问题:50 名参与者中 80%+ 在无正确选项时仍选择了错误选项
- HH-RLHF 数据集:随机抽检 50 例发现 40%+ 的"preferred"答案是错误的
亮点与洞察¶
- 揭示了对齐优化与批判推理能力之间的根本矛盾——"更有帮助"不等于"更正确"
- 人类标注者也倾向于盲从指令,这种偏见通过 RLHF 数据传播到模型中,形成"偏见循环"
- 反思判断力与安全性正相关:高 RJ 的模型在面对有害选项时也更能拒绝(Llama-405B 在 Hard 条件下 82% 拒绝率 vs GPT-4o-mini 60%)
- DeepSeekMath 的对齐反而恢复了 RJ,说明精心设计的对齐可以兼顾帮助性和批判思维
局限性 / 可改进方向¶
- 仅用二选一格式,未覆盖更多选项数
- BAD 是人工构造的简单算术,与真实场景有差距
- 人类实验仅 50 人,样本量有限
- 未深入分析为什么某些对齐方法(如 DeepSeek RLHF)能保持 RJ
相关工作与启发¶
- vs "None of the above" 研究: 前人添加"以上都不对"选项,本文更激进——完全不提供逃逸选项
- vs 对齐安全性研究: 大多关注拒绝有害请求,本文关注拒绝"无害但错误"的指令
- vs 模型校准研究: 校准关注置信度,本文关注是否有能力识别并拒绝错误前提
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "反思判断力"概念新颖,揭示对齐与推理的根本张力
- 实验充分度: ⭐⭐⭐⭐ 20+模型、3 数据集、多消融,但数据集规模有限
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,人类实验增加说服力
- 价值: ⭐⭐⭐⭐⭐ 对 LLM 对齐和安全研究有深刻启示