跳转至

InfoDet: A Dataset for Infographic Element Detection

会议: ICLR 2026
arXiv: 2505.17473
代码: https://github.com/InfoDet2025/InfoDet (有)
领域: 目标检测 / 文档理解
关键词: 信息图检测, 图表理解, 数据集, Grounded CoT, VLM

一句话总结

构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。

研究背景与动机

  1. 领域现状:图表理解是 VLM 的重要应用场景(如 ChartQA),但现有方法让 VLM 直接从原始图像推理,忽略了结构化的视觉元素信息。
  2. 现有痛点:(a) 缺少大规模信息图检测数据集——现有基础模型(DINO-X, Grounding DINO)在信息图元素检测上的 AP < 15%,几乎完全失败;(b) 信息图包含大量非自然场景的元素(如图标、图表组件),与 COCO/Objects365 训练的检测器领域差距大。
  3. 核心矛盾:信息图元素的检测是图表理解的基础,但当前检测器在该域上完全不可用。
  4. 本文要解决什么? (a) 构建大规模信息图检测数据集,(b) 验证检测结果如何提升 VLM 的图表推理。
  5. 切入角度:结合合成数据(9 万张,模板化生成)和真实数据(1.1 万张,model-in-the-loop 标注),覆盖 75 种图表类型。
  6. 核心idea一句话:将元素检测作为图表理解的"视觉提示"——先检测再推理(Thinking-with-Boxes)。

方法详解

整体框架

分两部分:(1) InfoDet 数据集构建,(2) Grounded CoT 方法,将检测到的元素以视觉和文本提示的形式注入 VLM 来增强图表推理。

关键设计

  1. 数据集构建:
  2. 合成数据(90,000 张):从 VizNet 的 3100 万张表格中采样数据,通过 1072 个设计模板生成信息图,Chart 和 HRO 标注从 SVG 程序化提取,完全自动化。
  3. 真实数据(11,264 张):从 10 个平台收集,用 CLIP 相似度去重 + GPT-4o 验证质量。标注采用 model-in-the-loop 迭代精化——先在合成数据上训练检测器,用检测器标注真实图像,专家修正后反馈改进检测器,多轮迭代。
  4. 最终质量:精确率 93.9%,召回率 96.7%,可比 COCO/Objects365。

  5. Grounded Chain-of-Thought(Thinking-with-Boxes):

  6. 做什么:将检测到的元素作为 VLM 的辅助输入,引导推理
  7. 核心思路:(a) 视觉提示——在图像上叠加检测框并用字母标识(双层分离:图表层 + 文本层,避免重叠混淆),(b) 文本描述——列出每个元素的属性。然后提示 VLM 逐步推理(CoT),引用带标识的元素。
  8. 设计动机:VLM 在复杂图表(多图表、信息图)上推理时容易遗漏或混淆元素,显式的元素检测结果提供了结构化的视觉线索。

训练策略

检测器在 InfoDet 上标准训练(Co-DETR, RTMDet)。VLM 不额外训练,Grounded CoT 是免训练的推理增强。

实验关键数据

检测结果

模型 预训练 Chart AP HRO AP Chart AR HRO AR
Co-DETR Zero-shot 0.4% 1.1% 5.6% 4.8%
Co-DETR InfoDet 81.8% 64.5% 88.2% 76.8%

Grounded CoT 结果(ChartQAPro 基准,增强松弛准确率)

模型 方法 信息图单图 信息图多图 总体
o1 Direct 66.4% 66.0% 61.4%
o1 CoT 64.3% 67.6% 61.9%
o1 Grounded CoT 67.8% 71.9% 64.1%

消融实验

Grounded CoT 组件 准确率
仅视觉提示 62.8%
仅文本描述 61.6%
组合(单层) 62.3%
组合(双层) 64.1%

关键发现

  • 零样本检测器在信息图上几乎失效(AP < 1.1%),说明该数据集填补了检测器在信息图域的空白
  • InfoDet 预训练后 AP 提升到 81.8%,且能迁移到其他文档理解任务(Rico +8.5 AP, DocGenome +5.4 AP)
  • Grounded CoT 在信息图场景提升 3-6% 准确率,在简单图表上提升有限
  • 双层分离的视觉提示比单层高 1.8%,避免了框和文字标注重叠

亮点与洞察

  • 数据集的稀缺性填补:1420 万标注的大规模信息图检测数据集,是该领域的重要资源贡献。
  • Thinking-with-Boxes 范式:先检测再推理的思路简单有效,类似于给 VLM 戴上"放大镜"。可迁移到任何视觉推理任务。
  • 合成+真实的数据构建:模板化合成(自动标注) + model-in-the-loop(高效标真实数据),平衡了规模和质量。

局限性 / 可改进方向

  • 合成数据与真实数据的域差距仍存在(合成更简单),需要更多真实数据
  • HRO(人类可识别对象)的检测 AP(64.5%)远低于 Chart(81.8%),说明图标检测更难
  • Grounded CoT 的提升在简单图表上不明显,可能引入了信息过载
  • 双层分离策略是手工设计的,更自适应的布局策略值得探索

相关工作与启发

  • vs ChartQA/ChartQAPro: 提供问答基准,本文在其上验证 Grounded CoT
  • vs Grounding DINO: 零样本在信息图上失败,说明需要领域特化数据
  • vs DocGenome: 文档布局检测数据集,InfoDet 预训练可迁移提升其性能

评分

  • 新颖性: ⭐⭐⭐⭐ 数据集和 Grounded CoT 任务定义新颖,方法本身较直接
  • 实验充分度: ⭐⭐⭐⭐⭐ 检测 + 图表理解 + 迁移学习全覆盖
  • 写作质量: ⭐⭐⭐⭐⭐ 数据集构建描述详尽
  • 价值: ⭐⭐⭐⭐⭐ 大规模数据集 + 开源,社区价值极高