跳转至

ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning

会议: ICCV 2025
arXiv: 2512.00305
代码: 无
领域: 图表理解 / 多模态推理
关键词: 图表推理, 多模态大模型, Chain-of-Thought, 视觉定位, 数值幻觉

一句话总结

提出PointCoT方法,将反思性视觉定位(bounding box)集成到图表推理的思维链中,使MLLM在每个推理步骤都能与图表视觉内容交互验证,并构建了包含19.2K高质量样本的ChartPoint-SFT-62k数据集,在ChartBench上实现+5.04%的提升。

研究背景与动机

多模态大语言模型(MLLM)在图表理解中严重依赖OCR提取的文本信息。当图表的文本标注稀疏时(如数据点没有标注具体数值),模型往往产生严重的数值幻觉——即使推理步骤看似合理,提取的数字仍包含显著错误。

作者发现了一个关键观察:MLLM在图表元素和比例关系上的定位能力极弱。当提示模型指出每个推理步骤对应的图表位置时,模型要么忽略请求,要么生成完全无关的坐标。这说明: - 传统CoT虽然增强了基于数字的逻辑推理,但未能提升模型的基础数值感知能力 - CoT虽生成更多推理token,但未能实现与图表视觉token的额外交互 - 模型缺乏人类读图时"看-指-读-算"的视觉推理逻辑

这促使作者将定位反思引入推理链:模型不仅需要说出推理步骤,还需通过输出bounding box指明其正在关注图表的哪个区域,并通过重新渲染的图表进行验证。

方法详解

整体框架

PointCoT数据构建流水线包含四个阶段: 1. 步骤分解(Step Decomposition):LLM生成数值问题和CoT推理步骤 2. 代码编辑(Code Editing):LLM修改绘图代码,在关键位置插入特殊字符 3. 代码渲染(Code Rendering):执行修改后的代码重新渲染图表 4. 位置定位(Position Localization):OCR检测特殊字符位置,提取bounding box

关键设计

1. 结构化推理构建(Structured Reasoning)

  • 功能:将图表问答的推理过程分解为"Grounding"和"Reasoning"两类步骤
  • 核心思路:使用Qwen2.5-72B作为教师模型,基于绘图代码生成数据点相关的问题和逐步推理过程。每个子步骤被分类为:
    • Grounding步骤:需要从图表中提取数据(如定位坐标轴上的点、图例条目)
    • Reasoning步骤:基于前序grounding步骤的信息进行逻辑推理
  • 设计动机:图表阅读的思维过程天然具有结构性——人类先识别关键位置,再进行数值推理。这种结构不是人为强加的,而是源自图表阅读的内在逻辑

2. 点标注构建(Point Annotation via Code Editing)

  • 功能:为每个grounding步骤生成精确的bounding box标注
  • 核心思路:不直接使用MLLM定位(不可靠),而是利用"图表-代码对"的优势:
  • 教师模型识别每个grounding步骤对应的图表元素/位置
  • 修改绘图代码,在关键位置插入特殊字符标记(通过plt.text()
  • 执行修改后的代码渲染新图表
  • 使用多种OCR工具检测特殊字符位置,提取bounding box
  • 设计动机:LLM修改代码的成功率远高于MLLM直接定位图表元素,利用代码作为中介实现精确的位置标注

3. 四种指令数据格式

  • Type 1 - 标准VQA:原始图表+问题,监督信号为答案或CoT+答案(不含bbox以防数据泄露)
  • Type 2 - 定位任务:将中间步骤加入查询提示,ground truth变为预测的bounding box
  • Type 3 - 编辑图表推理:将前序grounding步骤的bbox标注重绘到原始图表上,引导模型关注正确区域
  • Type 4 - 推理步骤:直接将reasoning步骤加入查询提示,最终监督信号为最终答案

最终构建ChartPoint-SFT-62k:19.2K图表 × 62.3K指令数据

损失函数 / 训练策略

两阶段全参数微调: - Stage 1 - 图表知识对齐:使用MMC-Instruct(410K) + ChartGemma(160K) + ChartQA(28K) + ChartBench(30K) - Stage 2 - 图表特定退火调优:使用ChartPoint-SFT-62k进行PointCoT方式的指令微调

训练细节:AdamW优化器,warmup lr=5e-5,权重衰减0.1,梯度裁剪1.0,等效batch size 64,bfloat16精度,约262 GPU小时(A100-40G)。坐标归一化到0-999范围。

实验关键数据

主实验

ChartQA relaxed accuracy@0.05:

模型 参数 Human Aug. 平均
Qwen2-VL 7B 72.08 94.24 83.16
Qwen2.5-VL 7B 78.96 93.76 86.36
ChartMoE+PoT 8B 78.32 90.96 84.64
ChartPoint_Q2 7B 76.12 94.48 85.28
ChartPoint_Q2.5 7B 81.36 94.12 87.74

ChartBench准确率:

模型 Regular类型 Extra类型 总体
Qwen2-VL 58.36 59.40 58.90
Qwen2.5-VL 62.73 57.26 60.91
ChartMoE 56.31 55.58 51.67
ChartPoint_Q2 63.04 62.09 62.61
ChartPoint_Q2.5 66.71 65.03 65.95

消融实验

训练策略消融(基于Qwen2-VL):

配置 ChartQA ChartBench 说明
Baseline (Qwen2-VL) 83.16 58.90 原始模型
+Stage1 83.74 60.39 图表知识对齐
+Stage1+CoT 84.11 60.76 文本CoT蒸馏
+Stage1+PointCoT 85.30 62.61 带定位的CoT

坐标格式消融:

格式 归一化 Human 总体 说明
Type A [0-1], 4位小数 73.52 83.68 连续坐标
Type B [0-1], 3位小数 74.68 84.42 精度降低
Type C [0-999], 整数 75.36 84.84 适配tokenizer

关键发现

  1. PointCoT在ChartBench上的提升(+3.71%/+4.28%)远大于ChartQA(+1.56%/+1.22%),因为ChartBench无数据点文本标注,更依赖视觉定位能力
  2. 文本CoT蒸馏的提升有限(+0.37%),因为推理过程由LLM生成而非MLLM,未利用图表视觉信息
  3. 在Extra类型图表(面积图、箱线图、雷达图等不常见类型)上PointCoT提升更显著(+7.77%),说明视觉推理逻辑具有泛化性
  4. 坐标归一化到[0-999]整数比连续浮点数效果更好,因为更适配tokenizer

亮点与洞察

  • 关键诊断:精确指出了MLLM图表理解的核心瓶颈——不是逻辑推理能力不足,而是视觉感知(数值读取)能力弱
  • 思路创新:将"定位反思"引入CoT,使推理的每一步都能与视觉证据关联验证,而非纯文本推理
  • 数据构建巧妙:利用图表-代码对的对应关系,通过代码修改间接实现精确位置标注,避免了直接让MLLM定位的不可靠性
  • 质量控制严格:每步都有成功率追踪(96%→76%→51%→77%),最终通过三位专家审核91%达标

局限与展望

  • 数据构建流水线成功率仅约28%(66.8K→19.2K),限制了数据规模的扩展
  • 仅覆盖柱状图(57.1%)、折线图(33.6%)和饼图(9.3%)三种类型
  • 问答集中在数据点读取,未涉及复杂的数值计算或多步推理
  • 依赖基线模型(Qwen2-VL/2.5-VL)的定位能力,对不支持bbox的模型不适用
  • 未探索推理时的scaling law(如beam search over location/reasoning steps)

相关工作与启发

  • MVoT在拼图等结构化场景中也观察到类似现象——推理步骤需要与视觉输入交互
  • ChartMoE提供了chart-code对的元数据基础,本工作创新性地利用这些数据进行位置标注
  • 该思路可推广到其他需要精确视觉感知的推理任务(如科学图表、地图、工程图纸)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将视觉定位反思融入图表CoT,诊断了MLLM的核心瓶颈
  • 实验充分度: ⭐⭐⭐⭐ 消融全面,跨模型验证充分,但数据集类型单一
  • 写作质量: ⭐⭐⭐⭐ 流水线描述清晰,但部分公式符号不够一致
  • 价值: ⭐⭐⭐⭐⭐ 为图表理解社区提供了新范式——从"文本推理"转向"视觉推理"

相关论文