Wait, that's not an option: LLMs Robustness with Incorrect Multiple-Choice Options¶

会议: ACL 2025
arXiv: 2409.00113
代码: GitHub
领域: ai_safety
关键词: reflective judgment, LLM alignment, multiple-choice, instruction following, critical reasoning

一句话总结¶

提出"反思判断力"（Reflective Judgment）概念来衡量 LLM 在所有选项都错误的选择题中拒绝选择的能力，发现对齐后的模型（GPT-4o 等）往往盲目服从指令选择错误选项，而基座模型反而表现更好，且该能力随模型规模增大而涌现。

研究背景与动机¶

领域现状：RLHF/DPO 等对齐技术旨在让 LLM 更"有帮助"（helpful），遵从用户指令。
现有痛点：过度优化"有帮助性"可能导致模型盲目服从错误指令——当所有选项都是错的时候，模型仍然会强行选一个而不是指出问题。
核心矛盾：有帮助性（按指令选择）与批判性推理（拒绝错误选项）之间存在根本张力，对齐技术意外地削弱了后者。
本文要解决什么？ 量化评估 LLM 的"反思判断力"——在无正确选项时识别并拒绝选择的能力。
切入角度：设计所有选项都错误的选择题，在三种难度条件下测试（Easy: 明确告知可能无正确答案；Standard: 无提示；Hard: 强制要求选一个）。
核心 idea 一句话：对齐训练让模型变得更"听话"但更不会"说不"，反思判断力是比帮助性更基础的能力。

方法详解¶

整体框架¶

构建三个数据集：BAD（基础算术，三个难度级别）、MMLU 子集（400 题跨领域知识）、MedMCQA（200 题高风险医疗决策）。每题只提供两个错误选项，在三种反思条件下测试。定义 Reflective Judgment Score = 反思性行动次数 / 总题数。

关键设计¶

三种反思条件（Reflection Conditions）:
Easy：明确告知"正确答案可能不在选项中"
Standard：无额外提示
Hard：要求必须从 A/B 中选一个
设计动机：测试模型在不同指令压力下的批判推理能力
Reflective Judgment Score（RJ Score）:
做什么：衡量模型拒绝选择错误答案或自行给出正确答案的比例
核心思路：RJ = 反思行为次数 / 总题数，反思行为包括指出无正确答案或给出未在选项中的正确答案
无理选项实验:
做什么：将选项替换为完全无关的名词（如"椅子""苹果"），测试极端情况下模型是否仍服从指令
结果：GPT-4o-mini 和 Claude 3 Haiku 仍然选择无理选项，Llama-405B 和 Qwen2-Math-7B 100% 拒绝

实验关键数据¶

主实验（BAD 数据集，Standard 条件）¶

模型	RJ Score	基线准确率	类型
GPT-4o	0.00%	100%	RLHF
Claude 3 Sonnet	0.00%	90.9%	RLHF
Qwen2-Math-7B Base	99.0%	100%	Base
DeepSeekMath-7B RLHF	100%	100%	RLHF
Llama 3.1-405B	42.5%	94.5%	RLHF
Qwen2.5-32B Base	90.9%	100%	Base

对齐影响对比¶

模型系列	Base RJ	Instruct RJ	RLHF RJ
Qwen2-Math-7B	99%	-	16% (大幅下降)
Qwen2.5-7B	40.9%	0% (下降)	0%
DeepSeekMath-7B	92%	12% (下降)	100% (恢复)

关键发现¶

对齐削弱反思判断：Qwen2-Math-7B Base RJ=99%，RLHF 版降至 16%
规模涌现：Llama 3.1 从 8B(0%) → 70B(60%) → 405B(42.5%-100%)，Qwen2.5 从 7B(40.9%) → 32B(90.9%)
高风险≠更谨慎：医疗题目（MedMCQA）上的 RJ 与简单算术题类似，高风险场景未触发更多反思
CoT 大幅提升 RJ：使用 Chain-of-Thought 后 RJ 提升超过 85%
人类也有同样问题：50 名参与者中 80%+ 在无正确选项时仍选择了错误选项
HH-RLHF 数据集：随机抽检 50 例发现 40%+ 的"preferred"答案是错误的

亮点与洞察¶

揭示了对齐优化与批判推理能力之间的根本矛盾——"更有帮助"不等于"更正确"
人类标注者也倾向于盲从指令，这种偏见通过 RLHF 数据传播到模型中，形成"偏见循环"
反思判断力与安全性正相关：高 RJ 的模型在面对有害选项时也更能拒绝（Llama-405B 在 Hard 条件下 82% 拒绝率 vs GPT-4o-mini 60%）
DeepSeekMath 的对齐反而恢复了 RJ，说明精心设计的对齐可以兼顾帮助性和批判思维

局限性 / 可改进方向¶

仅用二选一格式，未覆盖更多选项数
BAD 是人工构造的简单算术，与真实场景有差距
人类实验仅 50 人，样本量有限
未深入分析为什么某些对齐方法（如 DeepSeek RLHF）能保持 RJ

评分¶

新颖性: ⭐⭐⭐⭐⭐ "反思判断力"概念新颖，揭示对齐与推理的根本张力
实验充分度: ⭐⭐⭐⭐ 20+模型、3 数据集、多消融，但数据集规模有限
写作质量: ⭐⭐⭐⭐ 逻辑清晰，人类实验增加说服力
价值: ⭐⭐⭐⭐⭐ 对 LLM 对齐和安全研究有深刻启示