Enginuity: Building an Open Multi-Domain Dataset of Complex Engineering Diagrams¶
会议: NeurIPS 2025 (AI4Science Workshop) arXiv: 2601.13299 代码: 无 领域: 数据集 / 工程图理解 / 多模态推理 关键词: 工程图解析, 数据集, 汽车零件图, 结构化标注, 多模态大模型
一句话总结¶
提出 Enginuity——首个大规模开放多领域工程图数据集(50K+ 标注图),涵盖层级组件关系与连接语义,旨在突破当前 AI 无法理解工程图中视觉-结构知识的瓶颈。
背景与动机¶
- 工程图的重要性:工程图是科学和技术领域的通用视觉语言,编码了系统架构、流程、电路、分子结构等核心知识,是科研和工程实践中设计、分析、沟通的基础。
- 现有 AI 的局限:当前方法在符号检测上达到 85%+ 准确率,但关系抽取性能下降 25%+,真正的图理解仍然是瓶颈。即使是前沿多模态大模型也无法有效理解复杂工程图。
- 数据集空白:不存在包含 >10K 真实工程图、同时标注组件和结构关系的公开数据集。现有数据集要么规模小/领域窄(如 P&ID、电气原理图),要么受专利限制不公开。
- 核心矛盾:缺少大规模带结构标注的开放数据集,导致 AI 无法参与需要视觉-结构推理的科学工作流。
核心问题¶
如何构建一个大规模、开放、多领域的工程图数据集,使 AI 能够理解工程图中的层级组件关系、空间连接和语义元素?
方法详解¶
数据集设计¶
Enginuity 计划包含 50K+ 标注工程图,从汽车领域起步,覆盖动力系统、底盘、车身等组件,来自 500+ 车型。
数据收集策略(两管齐下)¶
- 公共领域图源:从已解密的政府车辆和旧车型中收集并标注爆炸图(exploded parts diagrams)及配套技术手册。由行业合作方 Predii(月处理 20 亿+ 维修任务的汽车 AI 公司)提供领域专家标注。
- 行业参与框架:建立机制让 OEM 等私营企业贡献 5-15 年旧车零件图,在不泄露专有信息的前提下丰富数据集。
标注体系¶
- 标注内容:层级组件关系、空间连接、零件编号、功能角色
- 标准化:对标 ISO/IEEE 本体
- 四阶段标注管线:
- AI 初始检测
- 专门团队精细化
- 专家对 10% 样本进行验证
- 主动学习循环降低标注成本(减少 65%)
AI 任务定义¶
| 任务 | 描述 |
|---|---|
| 组件/符号识别 | 检测图中的零件、符号等视觉元素 |
| 关系抽取 | 提取组件间的层级和空间连接关系 |
| 功能上下文解释 | 理解零件在维修流程中的功能角色 |
| 图表问答 (VQA) | 基于工程图回答自然语言问题 |
| 多模态信息检索 | 跨模态(文本↔图像)检索 |
| 图到数字孪生 | 2D 图自动转换为 3D 仿真模型 |
评估指标¶
结合目标检测标准指标(mAP、IoU)与关系图层级的图编辑距离(GED)和拓扑指标,全面评估解析质量。对于关系抽取任务,额外使用精度、召回率和 F1 来衡量预测关系的正确性。VQA 任务采用标准准确率和基于 BLEU/ROUGE 的文本生成指标。
关键技术挑战¶
- 符号→关系的鸿沟:当前方法检测组件准(85%+),但理解连接关系差(下降 25%+),需要联合建模空间布局与语义
- 标注效率:主动学习管线在成本与质量间取得平衡,但初始 AI 检测器的冷启动质量至关重要
- 跨领域泛化:汽车→机械→流程,不同领域的工程图标注体系和视觉风格差异大
- 多尺度表示:工程图同时包含宏观布局和微观标注文字,需要多尺度理解能力
与现有数据集对比¶
| 数据集 | 规模 | 领域 | 关系标注 | 公开 |
|---|---|---|---|---|
| SIED | < 1K | 工程符号 | ✗ | ✓ |
| CGHD | 数百 | 手绘原理图 | 部分 | ✓ |
| 现有 P&ID 数据集 | < 5K | P&ID | 有限 | 部分 |
| Enginuity | 50K+ | 多领域 | ✓ (层级+空间) | ✓ |
预期影响与下游加速¶
- 基础模型训练:为多模态大模型提供工程图理解的训练语料
- 跨领域迁移:汽车图上训练的模型可泛化到机械工程、流程工程
- 数字孪生生成:2D 图自动转 3D 仿真
- 知识保存:跨越数十年标注变化进行知识统一与协调
- 计划在 CVPR 2026 举办 Workshop 和 Shared Task,后续建立类似 LMSYS 的竞技平台
为何选汽车领域¶
汽车维修工作流高度依赖爆炸图,技术人员通过自然语言查询(如"前左刹车卡钳")导航这些图表,将视觉结构与符号标识关联。视觉信息、文本描述与功能知识的紧密耦合镜像了许多科学领域中的多模态推理挑战,使汽车图成为理想的测试平台。Predii 每月处理 20 亿+ 维修工单,提供了真实工业规模的数据来源。
亮点¶
- 填补了工程图理解领域的数据集空白,是社区急需的资源
- 四阶段标注管线兼顾质量与成本(主动学习降低 65% 标注开销)
- 行业参与框架设计合理,为学术界获取真实工业数据提供了可行路径
- 任务定义全面,从符号检测到数字孪生覆盖了完整的研究链路
局限性¶
- 作为 workshop proposal,数据集尚未实际发布,所有数字均为规划值
- 目前主要聚焦汽车领域,多领域扩展具体时间表不明确
- 标注质量依赖行业专家可用性,扩展规模存在瓶颈
- 缺乏基线实验验证,无法评估实际数据集的难度与可用性
- 爆炸图主要涵盖零件级信息,系统级功能交互(如电气连接)的标注覆盖度存疑
- 对 5-15 年旧车图的代表性与现代车型的差异未讨论
启发¶
- 四阶段标注管线(AI初检→人工精化→专家抽检→主动学习)可推广到其他专业图表标注场景
- 行业参与框架中"旧数据贡献"的思路为学术界获取工业数据提供了可复制模式
评分¶
- 新颖性: ⭐⭐⭐ — 填补工程图理解数据集空白,概念新但执行待验证
- 实验充分度: ⭐⭐ — proposal 性质,无实际实验结果
- 写作质量: ⭐⭐⭐ — 动机清晰、路线图完整
- 综合价值: ⭐⭐⭐ — 若成功发布将有重要推动作用