Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above¶

会议: ACL 2025
arXiv: 2502.14127
代码: 无
领域: LLM NLP / Evaluation
关键词: MCQA, evaluation, educational testing, Item Response Theory, LLM benchmark

一句话总结¶

系统性论证了 MCQA（多选题问答）作为 LLM 评测标准格式的三大缺陷——格式本身的局限性、数据集构建质量问题、以及 LLM 在 MCQA 上的特有错误——并从教育测试学中引入改进方案。

研究背景与动机¶

MCQA 因其简单性和与人类测试的相似性，成为 LLM 评估的事实标准。然而，作者指出 NLP 社区对其使用缺乏批判性审视：（1）MCQA 是否适合作为标准化 LLM 评估格式？（2）其数据集设计是否合理？论文从教育测试学（一个专注于有效评估的学科）的视角，系统性地回答这两个问题，主张"不需要抛弃 MCQA，但需要大力改进"。

方法详解¶

整体框架¶

论文是 Position Paper，按三个层次展开论证： 1. 格式层面（Section 3）：MCQA 作为格式的固有局限 2. 数据集层面（Section 5）：现有 MCQA 数据集的质量问题 3. 模型层面（Section 6）：LLM 在 MCQA 上的特有错误模式

每层问题都配套提出来自教育测试学的解决方案。

关键设计¶

格式缺陷分析： - "选最佳答案"过于刚性（Section 3.1）：单一正确答案无法测试主观性任务（如常识推理、道德判断）。Palta et al. (2024) 数据显示，用户在 20% 以上的常识题中认为干扰项比标准答案更合理。选择题测试的是验证（validation）能力而非生成（generation）能力，而 LLM 的验证与生成能力并不一致。 - 与用户使用场景脱节（Section 3.2）：HELM 32%、GPT-4 报告 71%、OpenLLM 79% 的任务是 MCQA，但 ShareGPT 数据显示超过 90% 的用户查询是生成性任务。 - 知识测试不充分（Section 3.3）：MCQA 主要评估 Bloom 分类法中的低层次能力（记忆、理解、应用），难以触及高层次的分析、评价和创造。

数据集问题： - 数据泄露：GPT-3 已见过 RACE 测试集的 45%。 - 不可回答题目：缺乏出题 rubric 导致部分 MCQ 本身就有瑕疵。 - 捷径（shortcuts）：模型可利用选项分布偏差等统计 artifact 作答。 - 饱和：现有 benchmark 已被刷爆，区分度不足。

提出的改进方案： 1. Constructed Response (CR)：去掉选项，让 LLM 生成短答案，测试真实知识而非选择能力。 2. Explanation MCQA (E-MCQA)：要求模型在选择答案的同时给出解释，暴露知识漏洞。类似推理任务的评测方式。 3. Item Response Theory (IRT)：从教育测试学引入，用于识别低质量 MCQ 并构建更有挑战性的题目。 4. 反猜测评分：引入惩罚猜测行为的评分指标。

损失函数 / 训练策略¶

本文为 Position Paper，不涉及模型训练。

实验关键数据¶

主实验¶

作为 Position Paper，本文以论证和文献综述为主，不包含新的实验。但引用了大量有力的实证数据：

MCQA 在评估中的过度代表：HELM 32%，GPT-4 报告 71%，OpenLLM 79% 的任务是 MCQA。
用户实际需求：ShareGPT 中仅约 7.2% 是验证性任务（4.3% 评估 + 2.9% 比较），WildChat 仅 6.3% 是事实问答。
主观性问题：Palta et al. (2024) 发现用户认为 20%+ 的常识 MCQA 中干扰项比"正确答案"更合理。
数据泄露：Sainz et al. (2023) 发现 GPT-3 训练数据中包含 RACE 测试集的 45%。

关键发现¶

评估格式与用户需求严重错位：90%+ 的用户需求是生成性任务，但评估以选择题为主。
MCQA 的简单性是把双刃剑：易于评分但掩盖了真实能力差异。
教育测试学有大量可借鉴的成熟工具：Rubric、IRT、反猜测评分等在教育领域已应用数十年，但 NLP 社区鲜有采用。
LLM 的 MCQA 错误与格式缺陷直接相关：选项顺序敏感性、文化偏差、不忠实解释等问题，都可通过格式改进来缓解或更好度量。

亮点与洞察¶

跨学科视角独特：系统性地将教育测试学百年积累引入 NLP 评估领域，论证有深度。
Bloom 分类法的应用：指出 MCQA 只测低层次认知能力（记忆、理解、应用），是对 LLM 评估"刷分"现象的深刻解读，暗示现有 benchmark 高分不等于真正智能。
CR 和 E-MCQA 两种替代方案设计合理，保留了 MCQA 的评分简单性，同时扩展了测试维度。CR 可直接从现有 MCQ 转换（去掉选项），降低了采纳门槛。
Section 7 实操指南：为研究者提供了设计有意义评估的具体建议，无论是否使用 MCQA。
三层论证结构清晰：格式→数据集→模型行为，层层递进，每层都配套来自教育学的解决方案，论证逻辑严密。
对工业界的警示：指出公司用 MCQA 分数宣传模型能力（如 Anthropic 将 MCQA 等同于智力测试）是误导性的。

局限性¶

作为 Position Paper，没有大规模实证验证所提出的改进方案在实际 benchmark 上的效果。
Constructed Response 和 E-MCQA 的评分仍依赖自动评估（如 LLM-as-a-judge），可靠性有待验证。
论文主要讨论英语场景，多语言 MCQA 的问题更复杂（如文化差异、翻译质量）。
IRT 在大规模 LLM benchmark 上的实际部署成本和可行性未充分讨论。
未讨论多模态 MCQA（如 visual QA）的特殊问题。
对于 E-MCQA 中"好解释"的定义，如何在不同领域（数学 vs 伦理 vs 常识）间保持一致性是开放问题。

评分¶

新颖性: 4/5 — 跨学科视角新颖，将教育测试学引入 NLP 评估
技术深度: 3/5 — Position Paper 以论证为主，缺乏新的技术方案实验
实验充分性: 2/5 — 无新实验，依赖文献引用
实用价值: 4/5 — 对 benchmark 设计者和 LLM 评估研究者有直接指导意义
推荐指数: ⭐⭐⭐⭐