InfoDet: A Dataset for Infographic Element Detection¶

会议: ICLR 2026
arXiv: 2505.17473
代码: https://github.com/InfoDet2025/InfoDet (有)
领域: 目标检测 / 文档理解
关键词: 信息图检测, 图表理解, 数据集, Grounded CoT, VLM

一句话总结¶

构建了一个大规模信息图元素检测数据集（101,264 张信息图、1420 万标注），涵盖图表和人类可识别对象两大类，并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。

领域现状：图表理解是 VLM 的重要应用场景（如 ChartQA），但现有方法让 VLM 直接从原始图像推理，忽略了结构化的视觉元素信息。
现有痛点：(a) 缺少大规模信息图检测数据集——现有基础模型（DINO-X, Grounding DINO）在信息图元素检测上的 AP < 15%，几乎完全失败；(b) 信息图包含大量非自然场景的元素（如图标、图表组件），与 COCO/Objects365 训练的检测器领域差距大。
核心矛盾：信息图元素的检测是图表理解的基础，但当前检测器在该域上完全不可用。
本文要解决什么？ (a) 构建大规模信息图检测数据集，(b) 验证检测结果如何提升 VLM 的图表推理。
切入角度：结合合成数据（9 万张，模板化生成）和真实数据（1.1 万张，model-in-the-loop 标注），覆盖 75 种图表类型。
核心idea一句话：将元素检测作为图表理解的"视觉提示"——先检测再推理（Thinking-with-Boxes）。

分两部分：(1) InfoDet 数据集构建，(2) Grounded CoT 方法，将检测到的元素以视觉和文本提示的形式注入 VLM 来增强图表推理。

数据集构建:
合成数据（90,000 张）：从 VizNet 的 3100 万张表格中采样数据，通过 1072 个设计模板生成信息图，Chart 和 HRO 标注从 SVG 程序化提取，完全自动化。
真实数据（11,264 张）：从 10 个平台收集，用 CLIP 相似度去重 + GPT-4o 验证质量。标注采用 model-in-the-loop 迭代精化——先在合成数据上训练检测器，用检测器标注真实图像，专家修正后反馈改进检测器，多轮迭代。
最终质量：精确率 93.9%，召回率 96.7%，可比 COCO/Objects365。
Grounded Chain-of-Thought（Thinking-with-Boxes）:
做什么：将检测到的元素作为 VLM 的辅助输入，引导推理
核心思路：(a) 视觉提示——在图像上叠加检测框并用字母标识（双层分离：图表层 + 文本层，避免重叠混淆），(b) 文本描述——列出每个元素的属性。然后提示 VLM 逐步推理（CoT），引用带标识的元素。
设计动机：VLM 在复杂图表（多图表、信息图）上推理时容易遗漏或混淆元素，显式的元素检测结果提供了结构化的视觉线索。

检测器在 InfoDet 上标准训练（Co-DETR, RTMDet）。VLM 不额外训练，Grounded CoT 是免训练的推理增强。

模型	预训练	Chart AP	HRO AP	Chart AR	HRO AR
Co-DETR	Zero-shot	0.4%	1.1%	5.6%	4.8%
Co-DETR	InfoDet	81.8%	64.5%	88.2%	76.8%

模型	方法	信息图单图	信息图多图	总体
o1	Direct	66.4%	66.0%	61.4%
o1	CoT	64.3%	67.6%	61.9%
o1	Grounded CoT	67.8%	71.9%	64.1%