BenchBench: Benchmarking Automated Benchmark Generation¶

日期: 2026-03-21
arXiv: 2603.20807
代码: GitHub
领域: 视频理解 / LLM评估
关键词: meta-evaluation, benchmark generation, LLM-as-designer, psychometric, designer-answerer matrix

一句话总结¶

提出 BenchBench，评估 LLM 自动生成 benchmark 能力的三阶段流水线——从种子 benchmark 提取领域卡 → LLM 设计者生成配额控制的题目套件 → 多模型答题面板验证——发现 benchmark 设计能力与答题能力仅弱相关（Spearman ρ≈0.37），生成 16.7K 题目覆盖 CS/数学/医学/ToM 四个领域。

研究背景与动机¶

领域现状: Benchmark 是 LLM 能力的标准度量，但静态测试集面临三个压力：饱和（模型很快刷满）、成本（高质量题目需领域专家）、自引循环（用 LLM 生成和评判题目引入偏差）。
现有痛点: (a) benchmark 激增但缺乏系统的元评估；(b) benchmark 污染+记忆导致泛化 vs 记忆界限模糊；(c) LLM judge 对 prompt 敏感且有偏。
核心 idea: 范式转变——不再只评"模型答题多好"，而评"模型出题多好"。Benchmark 设计是元能力：理解什么是正确的不够，还要理解什么是有信息量的测试。

方法详解¶

三阶段流水线¶

Stage 1: 领域卡提取: 从种子 benchmark 提取结构化领域卡（子领域本体、术语、模态/语言约束），作为 YAML 文件发布。
Stage 2: 配额控制生成: 每个设计者 LLM 根据领域卡生成题目套件，显式控制：超级父类覆盖、题型格式、难度层级（L1-L5）、标准/对抗意图比例。批量生成后补充性覆盖不足的类别。
Stage 3: 面板验证+评分:
- Objective-first 评分层次：精确匹配 → 数值/符号匹配 → 标准指南 LLM judge → 跳过
- 动态质量检查：标记歧义/错答/违反约束的题目
- 核心集过滤后生成设计者×答题者响应矩阵

四大评估维度¶

有效性与保真度: non-core 率（无效题目占比）
规范一致性: 与领域卡目标的偏差（格式/难度/领域覆盖分布）
诊断效用: 题目难度 + 区分度（点二列相关），排名保持度（Kendall τ）
交互效应: 自偏好/家族偏好（设计者出的题是否对同家族答题者更友好）

实验关键数据¶

规模统计¶

9 个变体（CS/数学/医学/ToM × 英/中 × 文本/多模态）
6-8 个设计者，10-12 个答题者
16.7K 生成题目，~15K 核心集，~152K 评分响应

设计者排行¶

设计者	Broken%	MeanDiscr
gpt-5-mini	3.5%	0.301
llama-4-maverick	10.9%	0.241

关键发现¶

设计能力与答题能力弱相关（ρ≈0.37）——好答题者不一定是好出题者
无效率与区分度负相关（r≈-0.62）——出更多有效题的模型同时题目区分度更高
gpt-5-mini 在设计质量上一致最优（无效率最低、区分度最高）
多模态题目中视觉引用保真度是主要失败模式

亮点与洞察¶

"评估出题能力"是个深刻的范式转变——设计好题目需要理解什么是"有信息量的测试"
Objective-first 评分层次值得推广：尽量用精确匹配，实在不行才用 LLM judge
设计者×答题者矩阵提供了前所未有的交互分析视角——可以检测家族偏好、自偏好等系统性偏差
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

领域卡从种子 benchmark 提取，设计空间仍受限于种子的领域覆盖
LLM judge 评分的~22%响应仍是主观评分，可能引入偏差
仅评估了中等规模模型，超大模型（GPT-5, Claude 4）的设计能力未充分覆盖
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐⭐ "Benchmark Benchmark" 的元评估范式新颖且有意义
实验充分度: ⭐⭐⭐⭐⭐ 9 个变体、16.7K 题目、152K 响应，规模充分
价值: ⭐⭐⭐⭐⭐ 为 LLM 评估生态系统提供了关键的质量控制工具