InfoDet: A Dataset for Infographic Element Detection¶
会议: ICLR 2026
arXiv: 2505.17473
代码: https://github.com/InfoDet2025/InfoDet (有)
领域: 目标检测 / 文档理解
关键词: 信息图检测, 图表理解, 数据集, Grounded CoT, VLM
一句话总结¶
构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。
研究背景与动机¶
- 领域现状:图表理解是 VLM 的重要应用场景(如 ChartQA),但现有方法让 VLM 直接从原始图像推理,忽略了结构化的视觉元素信息。
- 现有痛点:(a) 缺少大规模信息图检测数据集——现有基础模型(DINO-X, Grounding DINO)在信息图元素检测上的 AP < 15%,几乎完全失败;(b) 信息图包含大量非自然场景的元素(如图标、图表组件),与 COCO/Objects365 训练的检测器领域差距大。
- 核心矛盾:信息图元素的检测是图表理解的基础,但当前检测器在该域上完全不可用。
- 本文要解决什么? (a) 构建大规模信息图检测数据集,(b) 验证检测结果如何提升 VLM 的图表推理。
- 切入角度:结合合成数据(9 万张,模板化生成)和真实数据(1.1 万张,model-in-the-loop 标注),覆盖 75 种图表类型。
- 核心idea一句话:将元素检测作为图表理解的"视觉提示"——先检测再推理(Thinking-with-Boxes)。
方法详解¶
整体框架¶
分两部分:(1) InfoDet 数据集构建,(2) Grounded CoT 方法,将检测到的元素以视觉和文本提示的形式注入 VLM 来增强图表推理。
关键设计¶
- 数据集构建:
- 合成数据(90,000 张):从 VizNet 的 3100 万张表格中采样数据,通过 1072 个设计模板生成信息图,Chart 和 HRO 标注从 SVG 程序化提取,完全自动化。
- 真实数据(11,264 张):从 10 个平台收集,用 CLIP 相似度去重 + GPT-4o 验证质量。标注采用 model-in-the-loop 迭代精化——先在合成数据上训练检测器,用检测器标注真实图像,专家修正后反馈改进检测器,多轮迭代。
-
最终质量:精确率 93.9%,召回率 96.7%,可比 COCO/Objects365。
-
Grounded Chain-of-Thought(Thinking-with-Boxes):
- 做什么:将检测到的元素作为 VLM 的辅助输入,引导推理
- 核心思路:(a) 视觉提示——在图像上叠加检测框并用字母标识(双层分离:图表层 + 文本层,避免重叠混淆),(b) 文本描述——列出每个元素的属性。然后提示 VLM 逐步推理(CoT),引用带标识的元素。
- 设计动机:VLM 在复杂图表(多图表、信息图)上推理时容易遗漏或混淆元素,显式的元素检测结果提供了结构化的视觉线索。
训练策略¶
检测器在 InfoDet 上标准训练(Co-DETR, RTMDet)。VLM 不额外训练,Grounded CoT 是免训练的推理增强。
实验关键数据¶
检测结果¶
| 模型 | 预训练 | Chart AP | HRO AP | Chart AR | HRO AR |
|---|---|---|---|---|---|
| Co-DETR | Zero-shot | 0.4% | 1.1% | 5.6% | 4.8% |
| Co-DETR | InfoDet | 81.8% | 64.5% | 88.2% | 76.8% |
Grounded CoT 结果(ChartQAPro 基准,增强松弛准确率)¶
| 模型 | 方法 | 信息图单图 | 信息图多图 | 总体 |
|---|---|---|---|---|
| o1 | Direct | 66.4% | 66.0% | 61.4% |
| o1 | CoT | 64.3% | 67.6% | 61.9% |
| o1 | Grounded CoT | 67.8% | 71.9% | 64.1% |
消融实验¶
| Grounded CoT 组件 | 准确率 |
|---|---|
| 仅视觉提示 | 62.8% |
| 仅文本描述 | 61.6% |
| 组合(单层) | 62.3% |
| 组合(双层) | 64.1% |
关键发现¶
- 零样本检测器在信息图上几乎失效(AP < 1.1%),说明该数据集填补了检测器在信息图域的空白
- InfoDet 预训练后 AP 提升到 81.8%,且能迁移到其他文档理解任务(Rico +8.5 AP, DocGenome +5.4 AP)
- Grounded CoT 在信息图场景提升 3-6% 准确率,在简单图表上提升有限
- 双层分离的视觉提示比单层高 1.8%,避免了框和文字标注重叠
亮点与洞察¶
- 数据集的稀缺性填补:1420 万标注的大规模信息图检测数据集,是该领域的重要资源贡献。
- Thinking-with-Boxes 范式:先检测再推理的思路简单有效,类似于给 VLM 戴上"放大镜"。可迁移到任何视觉推理任务。
- 合成+真实的数据构建:模板化合成(自动标注) + model-in-the-loop(高效标真实数据),平衡了规模和质量。
局限性 / 可改进方向¶
- 合成数据与真实数据的域差距仍存在(合成更简单),需要更多真实数据
- HRO(人类可识别对象)的检测 AP(64.5%)远低于 Chart(81.8%),说明图标检测更难
- Grounded CoT 的提升在简单图表上不明显,可能引入了信息过载
- 双层分离策略是手工设计的,更自适应的布局策略值得探索
相关工作与启发¶
- vs ChartQA/ChartQAPro: 提供问答基准,本文在其上验证 Grounded CoT
- vs Grounding DINO: 零样本在信息图上失败,说明需要领域特化数据
- vs DocGenome: 文档布局检测数据集,InfoDet 预训练可迁移提升其性能
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集和 Grounded CoT 任务定义新颖,方法本身较直接
- 实验充分度: ⭐⭐⭐⭐⭐ 检测 + 图表理解 + 迁移学习全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 数据集构建描述详尽
- 价值: ⭐⭐⭐⭐⭐ 大规模数据集 + 开源,社区价值极高