Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams¶

会议: NeurIPS 2025 (AI4Science Workshop) arXiv: 2601.13299 代码: 无领域: 数据集 / 工程图理解 / 多模态推理 关键词: 工程图解析, 数据集, 汽车零件图, 结构化标注, 多模态大模型

一句话总结¶

提出 Enginuity——首个大规模开放多领域工程图数据集（50K+ 标注图），涵盖层级组件关系与连接语义，旨在突破当前 AI 无法理解工程图中视觉-结构知识的瓶颈。

工程图的重要性：工程图是科学和技术领域的通用视觉语言，编码了系统架构、流程、电路、分子结构等核心知识，是科研和工程实践中设计、分析、沟通的基础。
现有 AI 的局限：当前方法在符号检测上达到 85%+ 准确率，但关系抽取性能下降 25%+，真正的图理解仍然是瓶颈。即使是前沿多模态大模型也无法有效理解复杂工程图。
数据集空白：不存在包含 >10K 真实工程图、同时标注组件和结构关系的公开数据集。现有数据集要么规模小/领域窄（如 P&ID、电气原理图），要么受专利限制不公开。
核心矛盾：缺少大规模带结构标注的开放数据集，导致 AI 无法参与需要视觉-结构推理的科学工作流。

如何构建一个大规模、开放、多领域的工程图数据集，使 AI 能够理解工程图中的层级组件关系、空间连接和语义元素？

Enginuity 计划包含 50K+ 标注工程图，从汽车领域起步，覆盖动力系统、底盘、车身等组件，来自 500+ 车型。

公共领域图源：从已解密的政府车辆和旧车型中收集并标注爆炸图（exploded parts diagrams）及配套技术手册。由行业合作方 Predii（月处理 20 亿+ 维修任务的汽车 AI 公司）提供领域专家标注。
行业参与框架：建立机制让 OEM 等私营企业贡献 5-15 年旧车零件图，在不泄露专有信息的前提下丰富数据集。

结合目标检测标准指标（mAP、IoU）与关系图层级的图编辑距离（GED）和拓扑指标，全面评估解析质量。对于关系抽取任务，额外使用精度、召回率和 F1 来衡量预测关系的正确性。VQA 任务采用标准准确率和基于 BLEU/ROUGE 的文本生成指标。

汽车维修工作流高度依赖爆炸图，技术人员通过自然语言查询（如"前左刹车卡钳"）导航这些图表，将视觉结构与符号标识关联。视觉信息、文本描述与功能知识的紧密耦合镜像了许多科学领域中的多模态推理挑战，使汽车图成为理想的测试平台。Predii 每月处理 20 亿+ 维修工单，提供了真实工业规模的数据来源。