Toward Engineering AGI: Benchmarking the Engineering Design Capabilities of LLMs¶

总结¶

本文提出 EngDesign，首个面向多领域工程设计的 LLM 基准测试。与传统 QA 式基准不同，EngDesign 包含 101 个横跨 9 个工程领域（操作系统、计算机体系结构、控制系统、机械系统、结构设计、数字硬件、模拟 IC、机器人、信号处理）的实际设计任务。每个任务配有基于仿真的自动评估流水线，通过 SPICE 仿真、有限元分析、MATLAB 等专业工具验证设计的功能正确性。评估了 12+ 个前沿 LLM，发现即使最强的推理模型（o3）通过率也仅约 34%，突显了当前 LLM 在实际工程设计中的巨大差距。

动机¶

现有基准只测知识不测设计：MMLU、GPQA 等基准聚焦知识问答，无法评估 LLM 综合领域知识进行开放式工程设计的能力。
工程设计问题的本质不同：实际工程设计需要知识综合、约束满足、权衡取舍和仿真验证，远非选择题或填空题能覆盖。
业界对 AI 工程师的愿景：科技公司积极探索用 LLM 构建通用 AI 工程师，但缺乏衡量这一能力的标准化测试。
缺少跨领域统一评估：已有工作零散地在单一工程领域评估 LLM，缺少跨学科的统一基准和评估方法。
字符串匹配评估不适用：工程设计题的正确答案往往不唯一，需要通过仿真验证功能正确性而非精确匹配。
部分得分的重要性：二元对错评分无法揭示 LLM 在复杂设计中的渐进能力，需要细粒度的部分信用体系。

方法¶

基准结构¶

EngDesign 的每个任务包含四个核心组件： - 任务描述：输入给 LLM 的详细设计需求，包含设计目标、规格和约束（平均 779 token）。 - 评估标准：将任务分解为多个可评分项，总分 100，支持部分得分。 - 评估流水线：自动化脚本调用领域仿真工具验证设计，输出通过/失败、得分和评估日志。 - 参考设计：经验证的完整解答，确保任务可行性。

仿真驱动评估¶

采用领域专用仿真工具（SPICE、MATLAB Control Toolbox、FEA 等）验证 LLM 生成的设计方案。使用 instructor 库约束 LLM 输出为结构化格式（包含推理过程和 ConfigFile 设计参数），自动解析后送入仿真流水线。

构建流程¶

五阶段质量控制：(1) 研究生/研究员初始提案 → (2) LLM 过滤预测试（o4-mini 检查提示充分性）→ (3) 第一轮审查（清晰度、可执行性、参考解正确性）→ (4) 领域专家第二轮审查 → (5) 标准化集成。

迭代设计协议¶

模拟人类工程师工作流程，允许 LLM 在多轮迭代中基于前次评估反馈改进设计方案。

评估指标¶

三个维度：(1) 平均通过率，(2) 平均得分，(3) 推理鲁棒性（3 次试验全部通过的任务数 / 至少 1 次通过的任务数）。

实验¶

表1：各模型在 EngDesign 上的平均通过率（%）¶

模型	总体	体系结构	控制	数字硬件	机械	操作系统	机器人	信号	结构
GPT-4o	15.68	20.00	18.52	10.26	0.00	4.17	26.67	17.65	25.64
Claude-3.7-Sonnet	22.61	40.00	16.67	33.33	14.29	0.00	33.33	21.57	30.77
o1	29.17	40.00	24.07	41.03	14.29	37.50	50.00	25.49	23.08
o3	34.38	40.00	35.19	20.51	23.81	25.00	63.33	41.18	30.77
o4-mini-high	34.04	40.00	27.78	47.22	19.05	37.50	46.67	35.29	35.90
DeepSeek-R1	25.53	36.36	36.36	38.46	4.76	5.26	26.67	20.51	41.67

表2：失败分析——三个代表性模型的错误类型分布¶

模型	领域知识错误	约束违反	先验过度依赖	幻觉	计算错误	其他
o4-mini	33.3%	25.2%	18.8%	12.6%	9.0%	0.9%
Gemini-2.5-Pro	31.9%	31.9%	15.9%	12.4%	6.2%	1.7%
Claude-3.7-Sonnet	30.7%	36.0%	10.5%	13.2%	7.0%	2.6%

亮点¶

填补关键空白：首个跨 9 个工程领域的仿真驱动设计基准，从"考试题"跨越到"设计题"，评估范式革新。
仿真验证而非文本匹配：通过实际工程仿真工具评估设计功能性，确保评分基于工程实效而非语言概率。
部分信用评分体系：100 分制细粒度评分，揭示 LLM 在复杂设计中的渐进能力差异。
迭代设计协议有效：o3 经 10 轮迭代后通过率从约 30% 提升至近 60%，模拟了真实工程迭代改进过程。
深入的失败分析：系统性地将失败归类为 5 种错误类型，发现领域知识不足和约束违反是主因（55-67%），而非计算错误。
推理鲁棒性指标新颖：揭示推理模型不仅通过率更高，且 3 倍更稳定，这是仅看平均分无法发现的。

局限¶

任务数量有限且分布不均：101 个任务中 9 个领域分布不平衡（模拟 IC 仅 5 个任务），且某些领域（如模拟 IC）所有模型通过率为 0，可能反映任务难度设计问题。
34 个任务需要闭源软件：如 MATLAB 和 Cadence，限制了社区的全面复现和参与能力。
单次查询评估：主实验中 LLM 仅获得任务描述而无工具交互、检索增强或多轮对话机会，不完全反映实际工程工作流。
多模态支持有限：仅 23 个任务使用图像输入，且非多模态模型只能在文本子集上评估，限制了公平比较。
缺乏与人类工程师的基线对比：没有人类基准得分，难以判断当前 LLM 与人类工程师的差距大小。
评估脚本可能存在偏差：人工编写的评估脚本可能有隐式偏好或未覆盖的边界情况，影响评分公正性。

评分¶

维度	分数	说明
新颖性	8/10	首个跨领域仿真驱动的工程设计基准，评估范式创新
理论深度	5/10	主要贡献在基准构建，理论分析较少
实验充分性	8/10	12+ 模型全面评估，含迭代设计和失败分析
写作质量	8/10	结构清晰，图表丰富，领域覆盖全面
实用价值	9/10	对衡量 LLM 工程能力具有直接且重要的实用意义
总分	7.5/10	填补重要评估空白的基准工作，实用价值高但理论贡献有限