Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs¶

会议: ACL 2025
arXiv: 2403.12596
代码: 无
领域: 多模态VLM
关键词: 图表问答, VLM推理, 知识蒸馏, ChartQA, 推理增强

一句话总结¶

本文提出一种将LLM的推理能力迁移到VLM的方法，通过改进图表表示预训练、构造大规模合成推理数据集和多任务微调，使5B参数的PaLI-3在ChartQA上超越10倍大的模型。

研究背景与动机¶

领域现状：视觉语言模型（VLM）在多模态任务上取得了越来越好的表现，但其推理能力——特别是涉及数值计算和多步逻辑的推理——仍然有限。相比之下，大语言模型（LLM）的推理能力通过Chain-of-Thought等技术已有大幅提升。图表问答（Chart QA）是一个典型的需要复杂推理的多模态任务：需要从视觉中提取信息，再进行数值运算或逻辑推理。

现有痛点：小型VLM（如PaLI-3 5B）在ChartQA等任务上的推理能力明显弱于大型模型（如PaLI-X 55B），但大型模型的推理成本高昂。Chen et al. (2023c)指出PaLI-3在ChartQA上落后于PaLI-X，可能是由于推理能力不足。同时，现有VLM的训练流程中缺乏针对图表理解的专门预训练任务。

核心矛盾：小型VLM的表示能力可能足够理解图表视觉元素，但缺乏多步推理能力；而LLM具备强大的推理能力却无法直接处理视觉输入。如何将两者的优势结合起来？

本文目标：设计一套高效的训练方案（recipe），将LLM的推理能力迁移到小型VLM中，使其在图表问答任务上达到或超越大型模型的性能。

切入角度：将图表转换为结构化表格作为LLM和VLM之间的桥梁——LLM在表格上生成推理轨迹（reasoning traces），然后用这些轨迹训练VLM。

核心 idea：通过"改进预训练+合成推理数据+多任务微调"的三步方案，让小型VLM继承LLM的推理能力。

方法详解¶

整体框架¶

整体pipeline包含三个阶段：（1）继续预训练阶段，使用改进的chart-to-table翻译任务增强VLM对图表的内部表示；（2）合成数据构造阶段，利用LLM基于图表的表格表示生成推理轨迹，构造比原始数据集大20倍的训练集；（3）多任务微调阶段，使用Hsieh et al. (2023)的多任务框架同时训练答案生成和推理过程生成。

关键设计¶

图表表示预训练（Chart Representation Pre-training）:
- 功能：提升VLM对图表视觉元素（颜色、线条、位置）与文本内容（图例、单位）之间关联的理解
- 核心思路：在PaLI-3的预训练阶段追加chart-to-table翻译任务——给定图表图像，模型需要输出对应的结构化表格文本。相比Liu et al. (2023a)的原始版本，改进了表格格式的标准化和错误处理，提升了训练数据质量
- 设计动机：显式的chart-to-table翻译任务迫使模型学习图表视觉元素到结构化数据的精确映射，为后续的推理提供更好的内部表示
大规模合成推理数据（Synthetic Reasoning Traces）:
- 功能：构造包含中间推理步骤的训练数据，用于教会VLM进行多步推理
- 核心思路：先将图表转换为表格，然后将表格和问题输入LLM（如PaLM-2），让LLM生成详细的推理轨迹（包括信息提取、数值计算、逻辑推断的每一步）。通过这种方式将原始ChartQA训练集扩展了约20倍。推理轨迹以自然语言形式描述每个推理步骤，如"首先从表格中找到X列对应Y行的值为Z，然后计算..."
- 设计动机：VLM直接学习从图表到答案的映射缺少中间推理监督，合成的推理轨迹提供了显式的推理路径，相当于"教模型怎么想"而非"只告诉答案"
多任务微调框架（Multi-task Fine-tuning）:
- 功能：同时训练答案预测和推理过程生成两个任务
- 核心思路：基于Hsieh et al. (2023)的框架，为每个训练样本设置两个目标——直接输出答案和输出推理过程+答案。两个任务共享模型参数，使用多任务损失 \(L = L_{answer} + \lambda L_{rationale}\) 联合训练。推理时模型可以只输出答案（保持与PaLI-3相同的推理速度），也可以先输出推理过程再给出答案
- 设计动机：相比先蒸馏再预测的串行方法，多任务并行训练更高效，且推理过程作为辅助任务可以正则化答案预测，避免过拟合

损失函数 / 训练策略¶

使用多任务交叉熵损失，答案预测和推理过程生成两个任务按固定权重组合。此外还可以选择性地在推理阶段使用program-of-thought提示来进一步精化数值推理结果。

实验关键数据¶

主实验¶

模型	参数量	ChartQA-Human	ChartQA-Aug	PlotQA	FigureQA
PaLI-3-5B	5B	33.8	65.3	-	-
PaLI-X-55B	55B	57.6	79.9	-	-
Gemini Ultra	-	63.3	80.8	-	-
GPT-4V	-	60.3	78.1	-	-
ChartPaLI-5B	5B	64.2	82.5	73.1	63.2
ChartPaLI-5B + PoT	5B	66.7	83.1	-	-

消融实验¶

配置	ChartQA-Human	ChartQA-Aug	说明
ChartPaLI完整	64.2	82.5	全部组件
w/o 预训练续训	56.8	76.3	图表表示预训练贡献+7.4
w/o 合成推理数据	52.1	71.8	合成数据贡献最大（+12.1）
w/o 多任务框架（只用答案）	60.3	79.6	多任务提升+3.9
原始数据量（1x）	58.5	78.2	20x数据量提升+5.7

关键发现¶

合成推理数据贡献最大（+12.1分），验证了"教模型怎么推理"比"只给答案"有效得多
图表预训练续训贡献显著（+7.4分），说明良好的图表内部表示是推理的前提
5B参数的ChartPaLI超越了55B的PaLI-X和Gemini Ultra等模型，参数效率提升11倍
Program-of-thought在数值计算密集的问题上额外提升2.5分，但对定性问题帮助不大

亮点与洞察¶

将LLM推理能力迁移到VLM的方法非常巧妙：利用表格作为模态间的桥梁，让LLM在纯文本域生成推理轨迹，再用这些轨迹训练VLM。这种思路可以推广到其他需要推理的多模态任务
多任务框架比标准蒸馏更高效，因为推理过程和答案共享底层表示，互相增强
20x的数据增强策略说明在训练数据充足的情况下，小模型完全可以达到大模型的水平

局限与展望¶

方法依赖PaLI-3和PaLM-2的特定架构，对开源VLM（如LLaVA）的适用性待验证
chart-to-table的中间步骤引入了信息损失，对复杂图表（如多Y轴、嵌套图表）可能不适用
合成推理轨迹的质量上限受限于教师LLM的能力，错误的推理轨迹可能误导学生模型
可以探索端到端的推理蒸馏方法，去除显式的chart-to-table中间步骤

评分¶

新颖性: ⭐⭐⭐⭐ 推理迁移的pipeline设计新颖，但核心组件多为已有技术的组合
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多对比、详细消融
写作质量: ⭐⭐⭐⭐ 逻辑清晰，实验部分特别充实
价值: ⭐⭐⭐⭐ 对图表理解和小模型推理增强都有参考价值