Effective Training Data Synthesis for Improving MLLM Chart Understanding¶

会议: ICCV 2025
arXiv: 2508.06492
代码: https://github.com/yuweiyang-anu/ECD
领域: multimodal_vlm
关键词: 图表理解, 数据合成, 多模态大语言模型, 训练数据, 数据质量

一句话总结¶

提出模块化的五步图表数据合成流水线，生成包含10k+图表图像和300k+ QA对的高质量训练集ECD（Effective Chart Dataset），在多种开源MLLM上一致提升图表理解能力。

图表理解是构建科学AI agent的核心能力之一，但现有开源MLLM在挑战性benchmark上的成功率仅30%-50%。虽然图表可以程序化精确合成（相比自然图像有天然优势），但已有合成图表训练集存在显著问题：

这些限制导致合成数据与真实科学论文中的图表差异大，微调效果不理想。本文的核心思路是：通过模块化和多样化来缩小合成图表与真实图表之间的差距。

五步数据合成流水线：单图生成 → 组合子图生成 → 视觉多样化 → 质量过滤 → QA对生成与过滤。

模块化单图生成: 将图表函数与数据生成解耦。人工预定义29种图表函数（每种包含参数化的Python绘图代码），给GPT-4o三个输入：(1)图表主题、(2)图表函数、(3)参数描述+few-shot示例，让GPT专注生成数据表和文本元素。分步生成确保数据分布更丰富、数据值与文本元素语义关联。共生成10,875个单图。
条件式子图组合: 生成多子图时采用迭代条件生成——生成第3个子图时参考前2个子图的数据，确保主题一致性。模拟科学论文中多子图展示互补数据视角的习惯。共生成6,006个多子图图表，平均4个子图/图。
视觉多样化: 用GPT-4o修改Python绘图代码，随机添加注释、箭头、区域阴影、缩放框、副标题等视觉元素，修改字体颜色/样式/大小，使用Seaborn等额外库提升美观度。同时进行后处理调整figsize/dpi等参数。
双指标质量过滤: 使用GPT-4o评估两个维度——视觉清晰度 \(r_{vis}(\mathbf{x}, c_{layout})\) 和语义一致性 \(r_{sem}(\mathbf{x}, c_{theme})\)，保留高于均分的图表。从16,829张过滤至10,535张（过滤率37.4%）。
QA对生成与过滤: GPT-4o基于图表图像+代码+数据生成描述性和推理性QA对，要求模型给出1-5信心分，仅保留满分5分的QA对。从348,862过滤至321,544（过滤率7.8%）。

对4种开源MLLM进行微调：LLaVA-Next-Llama3-8B（LoRA）、MiniCPM-V2.6（LoRA）、Phi-3-Vision（全参数）、Qwen2.5-VL-7B（LoRA）
冻结vision tower，仅微调其余部分
训练1个epoch，学习率1e-4（LoRA）或5e-6（全参数）
评估指标：GPT-Acc（使用GPT-4o提取答案并评估正确性）

模型	CharXiv Avg	ChartQA	ChartX	ECDBench Avg
LLaVA-Next-8B	35.06	64.56	27.69	10.95
+ ECD	51.60 (+16.54)	68.64 (+4.08)	46.61 (+18.92)	31.58 (+20.63)
Phi-3-Vision	54.72	81.92	67.53	31.41
+ ECD	61.08 (+6.36)	84.88 (+2.96)	71.44 (+3.91)	44.40 (+12.99)
Qwen2.5-VL-7B	61.36	83.04	67.80	38.19
+ ECD	67.40 (+6.04)	85.32 (+2.28)	70.83 (+3.03)	50.86 (+12.67)

ECD在4个MLLM上6个测试集上整体一致提升。

与其他训练集对比 (LLaVA-Next基线):

训练集	CharXiv	ChartQA	ReachQA	ChartX	ECDBench
无微调	35.06	64.56	15.65	27.69	10.95
ChartQA	35.16	68.92	15.00	31.51	13.11
ChartBench	32.86↓	61.56↓	18.35	37.33	10.99
ReachQA	30.68↓	64.50	24.35	39.24	13.48
ECD	51.60	68.64	25.10	46.61	31.58

其他训练集往往只提升自身分布相似的测试集，甚至导致其他测试集下降。ECD是唯一在所有6个测试集上都一致提升的训练数据。

数据规模效应: 2k→40k图像逐步提升性能，ReachQA持续提升（18.25→24.75），CharXiv在20k后饱和。

视觉多样化效果: FID降低19.64（80.38→60.74），平均熵提升0.57（1.67→2.24），证实多样化显著缩小了与真实图表的分布差距。