Infogen: Generating Complex Statistical Infographics from Documents¶

会议: ACL 2025
arXiv: 2507.20046
代码: 无（数据集Infodat的样本已公开）
领域: 其他
关键词: 信息图生成, 数据可视化, LLM代码生成, 元数据, 多子图对齐

一句话总结¶

提出Infogen框架，将文本文档转化为复杂统计信息图（多子图组合），采用两阶段设计——先用微调LLM生成结构化中间元数据，再用LLM代码生成器和反馈模块迭代生成最终信息图代码。

统计信息图是将复杂数据转化为直观可视化的强大工具。现有的AI驱动可视化方法（如LIDA、ChartGPT）主要聚焦于从结构化数据（CSV/表格）生成单一的简单图表（柱状图、折线图等）。然而，真实场景中用户往往需要从非结构化的文本文档出发，生成包含多个子图（如柱状图+饼图+折线图）的复杂统计信息图。

这种任务的挑战在于： 1. 需要从长文本中识别并提取统计数据 2. 需要决定子图的数量、类型和内容 3. 需要将多个子图排列成视觉协调的整体布局

作者认为，直接从文本生成信息图质量不高，引入结构化的中间元数据（metadata）作为桥梁可以显著提升生成质量。

Infogen 包含两个主要模块： 1. 元数据生成模块：将文本文档转化为结构化元数据 \(M = f(T)\) 2. 代码生成模块：将元数据转化为可执行的Python代码 \(C = g(M)\)

完整流程为 \(C = g(f(T))\)

元数据定义：包含信息图的标题、文本摘要、以及每个子图的详细信息——图表类型（线图/柱状图/饼图等）、坐标轴标签、数据点、对齐方式、位置、字体、背景色等。元数据是引导最终代码生成的蓝图。
元数据生成三阶段：
- QLoRA微调：对Qwen-2 Large (72B)、LLAMA 3 (70B)、Phi-3 Medium三个大模型分别用QLoRA进行微调，优化交叉熵损失
- DPO对齐：为每个数据点从微调模型生成两个元数据输出（不同temperature），由GPT-3.5 Turbo排序形成合成偏好数据集，然后用DPO loss微调模型
- 排序LLM（Ranker）：用微调的LLAMA 3 (70B)评估三个DPO模型的输出，选择最准确的结果，解决单一模型可能产生幻觉的问题
代码生成双模块：
- Coder Module（编码器模块）：使用GPT-4o，通过in-context learning将元数据转换为Python代码（使用Plotly/Plotnine库），包含子图设置、数据集成和布局编排
- Feedback Module（反馈模块）：审查生成的代码是否准确对应元数据，检查数据映射、子图属性、布局一致性等问题，提供修改建议。最多迭代5轮精化

模型	子图准确率	RSE	标题Rouge-L	子图类型准确率	统计准确率
Infogen (large)	74.69	1.80	0.56	84.23	89.56
GPT-4o 20-shot	56.73	2.06	0.36	72.10	87.77
Phi3 QLoRA large DPO	72.11	1.96	0.56	83.03	89.44
LLAMA3 QLoRA large DPO	68.65	2.05	0.55	82.98	88.27
In-context merge	65.57	2.24	0.51	83.46	88.79

人类评估（5分制）：

模型	可读性	视觉吸引力	数据准确对齐
Infogen	4.1	3.8	4.1
Phi3 (DPO)	3.7	3.2	3.4
GPT-4o (20-shot)	3.4	2.8	2.4