Toward Engineering AGI: Benchmarking the Engineering Design Capabilities of LLMs¶
总结¶
本文提出 EngDesign,首个面向多领域工程设计的 LLM 基准测试。与传统 QA 式基准不同,EngDesign 包含 101 个横跨 9 个工程领域(操作系统、计算机体系结构、控制系统、机械系统、结构设计、数字硬件、模拟 IC、机器人、信号处理)的实际设计任务。每个任务配有基于仿真的自动评估流水线,通过 SPICE 仿真、有限元分析、MATLAB 等专业工具验证设计的功能正确性。评估了 12+ 个前沿 LLM,发现即使最强的推理模型(o3)通过率也仅约 34%,突显了当前 LLM 在实际工程设计中的巨大差距。
动机¶
- 现有基准只测知识不测设计:MMLU、GPQA 等基准聚焦知识问答,无法评估 LLM 综合领域知识进行开放式工程设计的能力。
- 工程设计问题的本质不同:实际工程设计需要知识综合、约束满足、权衡取舍和仿真验证,远非选择题或填空题能覆盖。
- 业界对 AI 工程师的愿景:科技公司积极探索用 LLM 构建通用 AI 工程师,但缺乏衡量这一能力的标准化测试。
- 缺少跨领域统一评估:已有工作零散地在单一工程领域评估 LLM,缺少跨学科的统一基准和评估方法。
- 字符串匹配评估不适用:工程设计题的正确答案往往不唯一,需要通过仿真验证功能正确性而非精确匹配。
- 部分得分的重要性:二元对错评分无法揭示 LLM 在复杂设计中的渐进能力,需要细粒度的部分信用体系。
方法¶
基准结构¶
EngDesign 的每个任务包含四个核心组件: - 任务描述:输入给 LLM 的详细设计需求,包含设计目标、规格和约束(平均 779 token)。 - 评估标准:将任务分解为多个可评分项,总分 100,支持部分得分。 - 评估流水线:自动化脚本调用领域仿真工具验证设计,输出通过/失败、得分和评估日志。 - 参考设计:经验证的完整解答,确保任务可行性。
仿真驱动评估¶
采用领域专用仿真工具(SPICE、MATLAB Control Toolbox、FEA 等)验证 LLM 生成的设计方案。使用 instructor 库约束 LLM 输出为结构化格式(包含推理过程和 ConfigFile 设计参数),自动解析后送入仿真流水线。
构建流程¶
五阶段质量控制:(1) 研究生/研究员初始提案 → (2) LLM 过滤预测试(o4-mini 检查提示充分性)→ (3) 第一轮审查(清晰度、可执行性、参考解正确性)→ (4) 领域专家第二轮审查 → (5) 标准化集成。
迭代设计协议¶
模拟人类工程师工作流程,允许 LLM 在多轮迭代中基于前次评估反馈改进设计方案。
评估指标¶
三个维度:(1) 平均通过率,(2) 平均得分,(3) 推理鲁棒性(3 次试验全部通过的任务数 / 至少 1 次通过的任务数)。
实验¶
表1:各模型在 EngDesign 上的平均通过率(%)¶
| 模型 | 总体 | 模拟IC | 体系结构 | 控制 | 数字硬件 | 机械 | 操作系统 | 机器人 | 信号 | 结构 |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4o | 15.68 | 0.00 | 20.00 | 18.52 | 10.26 | 0.00 | 4.17 | 26.67 | 17.65 | 25.64 |
| Claude-3.7-Sonnet | 22.61 | 0.00 | 40.00 | 16.67 | 33.33 | 14.29 | 0.00 | 33.33 | 21.57 | 30.77 |
| o1 | 29.17 | 0.00 | 40.00 | 24.07 | 41.03 | 14.29 | 37.50 | 50.00 | 25.49 | 23.08 |
| o3 | 34.38 | 0.00 | 40.00 | 35.19 | 20.51 | 23.81 | 25.00 | 63.33 | 41.18 | 30.77 |
| o4-mini-high | 34.04 | 0.00 | 40.00 | 27.78 | 47.22 | 19.05 | 37.50 | 46.67 | 35.29 | 35.90 |
| DeepSeek-R1 | 25.53 | 0.00 | 36.36 | 36.36 | 38.46 | 4.76 | 5.26 | 26.67 | 20.51 | 41.67 |
表2:失败分析——三个代表性模型的错误类型分布¶
| 模型 | 领域知识错误 | 约束违反 | 先验过度依赖 | 幻觉 | 计算错误 | 其他 |
|---|---|---|---|---|---|---|
| o4-mini | 33.3% | 25.2% | 18.8% | 12.6% | 9.0% | 0.9% |
| Gemini-2.5-Pro | 31.9% | 31.9% | 15.9% | 12.4% | 6.2% | 1.7% |
| Claude-3.7-Sonnet | 30.7% | 36.0% | 10.5% | 13.2% | 7.0% | 2.6% |
亮点¶
- 填补关键空白:首个跨 9 个工程领域的仿真驱动设计基准,从"考试题"跨越到"设计题",评估范式革新。
- 仿真验证而非文本匹配:通过实际工程仿真工具评估设计功能性,确保评分基于工程实效而非语言概率。
- 部分信用评分体系:100 分制细粒度评分,揭示 LLM 在复杂设计中的渐进能力差异。
- 迭代设计协议有效:o3 经 10 轮迭代后通过率从约 30% 提升至近 60%,模拟了真实工程迭代改进过程。
- 深入的失败分析:系统性地将失败归类为 5 种错误类型,发现领域知识不足和约束违反是主因(55-67%),而非计算错误。
- 推理鲁棒性指标新颖:揭示推理模型不仅通过率更高,且 3 倍更稳定,这是仅看平均分无法发现的。
局限¶
- 任务数量有限且分布不均:101 个任务中 9 个领域分布不平衡(模拟 IC 仅 5 个任务),且某些领域(如模拟 IC)所有模型通过率为 0,可能反映任务难度设计问题。
- 34 个任务需要闭源软件:如 MATLAB 和 Cadence,限制了社区的全面复现和参与能力。
- 单次查询评估:主实验中 LLM 仅获得任务描述而无工具交互、检索增强或多轮对话机会,不完全反映实际工程工作流。
- 多模态支持有限:仅 23 个任务使用图像输入,且非多模态模型只能在文本子集上评估,限制了公平比较。
- 缺乏与人类工程师的基线对比:没有人类基准得分,难以判断当前 LLM 与人类工程师的差距大小。
- 评估脚本可能存在偏差:人工编写的评估脚本可能有隐式偏好或未覆盖的边界情况,影响评分公正性。
相关工作¶
- 通用 LLM 基准:MMLU (Hendrycks et al., 2020)、GPQA (Rein et al., 2024)、HumanEval (Chen et al., 2021)、GSM8k (Cobbe et al., 2021) 主要评估知识问答和代码生成。
- 工程领域 QA 评估:Kevian et al. (2024)、Li et al. (2024) 等在电气/机械等单一领域评估教科书级问答。
- 领域专用 AI 辅助设计:ControlAgent (Guo et al., 2024) 用于控制器设计,AnalogCoder (Lai et al., 2024) 和 SPICED (Chaudhuri et al., 2024) 用于电路设计。
- 推理增强 LLM:OpenAI o 系列、DeepSeek-R1 (Guo et al., 2025)、Claude-Thinking、Gemini 2.5 Pro 等通过 CoT 和强化学习增强推理。
- LLM 在计算工程中的应用:Hamann et al. (2024)、Xu et al. (2024) 探索 LLM 辅助机械设计和计算工程。
- 多模态评估:DynaMath (Zou et al., 2024) 评估 VLM 的数学推理鲁棒性,GAIA (Mialon et al., 2023) 测试长上下文推理。
评分¶
| 维度 | 分数 | 说明 |
|---|---|---|
| 新颖性 | 8/10 | 首个跨领域仿真驱动的工程设计基准,评估范式创新 |
| 理论深度 | 5/10 | 主要贡献在基准构建,理论分析较少 |
| 实验充分性 | 8/10 | 12+ 模型全面评估,含迭代设计和失败分析 |
| 写作质量 | 8/10 | 结构清晰,图表丰富,领域覆盖全面 |
| 实用价值 | 9/10 | 对衡量 LLM 工程能力具有直接且重要的实用意义 |
| 总分 | 7.5/10 | 填补重要评估空白的基准工作,实用价值高但理论贡献有限 |