ELI-Why: Evaluating the Pedagogical Utility of Language Model Explanations¶

会议: ACL2025 arXiv: 2506.14200 代码: inklab.usc.edu/eli-why 领域: llm_nlp 关键词: 教育评估, 语言模型解释, 教学适配, 信息需求, 可读性分析

一句话总结¶

构建了包含 13.4K "Why" 问题的 ELI-Why 基准，通过两项人类研究发现 GPT-4 生成的面向不同教育水平的解释仅 50% 能匹配目标年级（人工策划达 79%），且对学习者信息需求的满足度比人类答案低 20%。

研究背景与动机¶

领域现状：语言模型在教育中被广泛用于信息检索、辅导和自动评估，个性化教学被视为关键能力。
现有痛点：LM 默认生成"一刀切"式回答，无法适配不同知识背景的学习者；现有基准主要关注客观的选择题 QA 任务，缺少对解释性回答教学效用的系统评估。
核心矛盾：尽管 GPT-4 等模型可以被 prompt 要求面向特定年级生成解释，但"能生成"不等于"真适合"——用户感知到的难度等级与模型意图往往不匹配。
本文要解决什么：系统量化 LM 在为不同教育背景（小学/高中/研究生）用户生成解释时的教学适配失败程度与原因。
切入角度：以"Why"问题为载体（需要解释性回答），构建标准化基准 + 双视角人类研究（教育者 + 学习者），兼顾自动化指标分析。
核心 idea：用教育者背景匹配率（Perceived Background Match）和学习者信息需求满足度两个互补维度评估 LM 教学效用，揭示 prompt 适配的本质局限。

方法详解¶

整体框架¶

ELI-Why 基准构建： - 从 50 个种子 "Why" 问题出发，GPT-4 few-shot 过度生成 ~30K 问题，经人工去重和众包过滤（去除过于小众的领域问题），最终保留 13,392 个问题 - 涵盖 6,217 个 STEM 问题（物理、化学、计算机等）和 7,175 个非 STEM 问题（社会学、法律、历史等）

年级适配解释生成： - 三个教育等级：Elementary School（小学，约 US Grade 4）、High School（高中至大学二年级）、Graduate School（研究生） - 四个模型家族：GPT-4-0613、Llama-3.2-3B-Instruct、Qwen 2.5 14B Instruct、DeepSeek R1 Distill Llama 8B - 零样本 prompt 要求模型扮演专家角色，为每个年级生成解释；prompt 中明确指示"不要添加问候语或装饰性词汇"以减少风格化干扰

关键设计¶

人类研究一：教育者视角 - 400 个问题子集 + GPT-4 生成的三级解释 - 参与者扮演"教育者"角色，判断解释适合哪个年级（Perceived Background） - 每个解释对收集 3 个独立标注，取多数投票 - 对照组：40 个问题由论文作者手动从网络策划三级解释（Manually Web-Retrieved）

人类研究二：学习者视角 - 参与者基于自身教育背景，评价解释是否（1）提供了新信息，（2）与已有知识连接 - 覆盖小学、高中、研究生（物理和心理学两个方向）三组

自动化指标： - Flesch-Kincaid Reading Ease 可读性评分 - 句子数量、复杂词比例等表面特征

基线对比¶

Default 解释（不指定年级的零样本生成）
Web-Retrieved 解释（Google API Featured Snippet）
Manually Web-Retrieved（人工策划的三级解释）

实验关键数据¶

主实验：Perceived Background Match¶

解释来源	背景匹配率
GPT-4 年级适配	~50%
Manually Web-Retrieved	79.16%

GPT-4 的解释大多被感知为"高中级别"，反映出模型倾向于面向普通用户的默认倾向
出现令人意外的错配：小学解释被认为适合研究生，反之亦然

人类研究二：学习者信息需求¶

GPT-4 解释相比人工策划解释，信息满足度平均低 20%
差距在研究生和高中背景群体中尤为显著

自动化指标发现¶

模型	Elementary 句数	High School 句数	Graduate 句数
GPT-4	4.63±1.34	7.08±2.53	8.46±2.62
Llama-3.2-3B	3.29±1.63	6.70±2.97	9.10±3.33

解释长度随年级增加，但 Flesch-Kincaid 可读性等级严重重叠（大多落在高中-大学范围的粉色区域）
四个模型家族均呈现相似趋势：年级间的可读性差异不够显著

关键发现¶

仅靠 prompt 指定目标年级，无法使 LM 真正调整知识深度，更多是调整了风格（如为小学添加"在公园玩"等场景）
人工策划的解释在匹配率上高出 GPT-4 约 30 个百分点，说明当前 LM 的教学适配能力远不及人类的信息架构能力

亮点与洞察¶

双视角评估框架独具匠心：教育者视角检验"匹配度"，学习者视角检验"实用度"，两者互补揭示了 LM 教学适配的多维失败
ELI-Why 基准覆盖 13.4K 问题、STEM/非 STEM 双轨道，为后续教育 LM 研究提供了标准化的评估资源
定量揭示了 prompt 适配的天花板：即使精心设计 prompt，GPT-4 也只能做到 50% 的年级匹配——这对"通过 prompt 实现个性化教学"的乐观预期是重要的校正
自动化指标与人类研究的对比分析表明，传统可读性指标（如 Flesch-Kincaid）不足以捕捉教学适配质量

局限性¶

教育等级仅三级（小学/高中/研究生），实际教育需求更加连续和多维
以美国教育体系为基准，跨文化泛化能力未验证
问题由 GPT-4 生成可能引入模型偏见（生成的问题在某些领域分布不均）
仅对 GPT-4 进行人类研究，其他模型仅有自动化指标评估
"Why"问题虽好但范围有限，其他类型问题（How, What-if）的教学适配可能呈现不同模式

评分¶

新颖性: ⭐⭐⭐⭐ — 首个系统评估 LM 面向不同教育水平教学效用的基准和评估框架
实验充分度: ⭐⭐⭐⭐ — 两项人类研究 + 四个模型家族自动化分析，但人类研究仅覆盖 GPT-4
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表直观，Sankey 图展示年级错配非常有说服力
价值: ⭐⭐⭐⭐ — 对教育 AI 领域有重要警示意义，基准和评估框架均有长期复用价值