ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement¶

会议: CVPR 2026
arXiv: 2512.13303
代码: https://lntzm.github.io/showtable-page/
领域: 扩散模型 / 图像生成
关键词: 表格可视化, 自纠错, MLLM推理, 扩散模型, 强化学习

一句话总结¶

ShowTable 提出了"创意表格可视化"这一新任务（将数据表格生成为信息图），并设计了一个 MLLM（推理+反思）与扩散模型（生成+精修）协同的渐进式自纠错 pipeline，通过针对性训练的重写模块和用 RL 优化的精修模块，在自建的 TableVisBench 基准上显著提升所有基线模型的可视化质量。

研究背景与动机¶

领域现状：图像生成模型在通用场景下质量已很高，近期研究逐步转向更复杂的结构化生成，如海报设计、文字渲染等。然而，数据驱动的可视化（如从表格生成图表/信息图）对现有模型来说仍是巨大挑战。
现有痛点：直接将 markdown 表格作为 prompt 输入生成模型，模型倾向于"渲染表格文本"而非"可视化数据"。现有统一模型在数据准确性（Data Accuracy）上几乎为零（如 Bagel 仅 0.1，Blip3o-Next 仅 0.4），无法正确将数据点映射为视觉元素（柱高、饼图角度等）。
核心矛盾：创意表格可视化要求两个看似矛盾的能力——创意美学设计（需要自由度）和严格数据保真映射（需要精确度）。生成模型擅长前者但在后者上频繁出错。
本文目标 如何让生成模型将结构化表格数据准确且美观地可视化为信息图，同时能自动检测和修复生成错误。
切入角度：用 MLLM 做推理规划（重写）和错误审计（反思），用扩散模型做执行（生成+精修），形成迭代自纠错闭环。针对重写和精修两个瓶颈分别训练专用模块。
核心 idea：用"MLLM 协调 + 扩散模型执行"的协作模式，通过 Rewriting→Generation→Reflection→Refinement 的自纠错循环，实现从表格到美观信息图的高保真生成。

方法详解¶

整体框架¶

ShowTable 是一个四阶段 pipeline：(1) Rewriting——MLLM 将数据密集的 markdown 表格转化为详细的描述性 prompt，包含数据点、布局、颜色、背景的规划；(2) Generation——扩散模型根据重写后的 prompt 生成初始图像；(3) Reflection——MLLM 对照原始表格审计生成图像，识别数据映射错误、文字渲染错误、比例关系错误等，生成精确的编辑指令；(4) Refinement——图像编辑模型根据编辑指令修正错误。Reflection→Refinement 最多迭代 3 轮。

关键设计¶

重写模块（Rewriting Module）:
- 功能：将表格数据转化为生成模型可执行的详细描述性 prompt
- 核心思路：基于 Qwen3-8B 微调一个专用重写模型。训练数据构建：(a) 用 Gemini-2.5-pro 对收集的表格可视化 ground truth 图像生成详细描述；(b) 再生成 chain-of-thought 推理过程解释转换逻辑。形成 30K 条 {table, rationale} → {description} 的 SFT 数据，用标准 next-token prediction 训练。
- 设计动机：通用 LLM（GPT-5、Gemini）在数据推理和构图规划上仍会遗漏数据点或规划不当（尤其面对复杂多层表格）。专门微调的重写模块在 Data Accuracy 上超越了甚至使用 Reference-Caption 的上界（51.2 vs 50.3）。
反思模块（Reflection Module）:
- 功能：审计生成图像的数据准确性并生成编辑指令
- 核心思路：使用 GPT-5 作为反思模型（性能最佳），对照原始表格对生成图像进行逐维度审计——数据点是否正确、文字是否清晰、比例关系是否准确、附加信息是否合理。输出精确、可操作的编辑指令（如"第三根柱子高度应降低 20%"）。
- 设计动机：MLLM 本身难以直接生成完美可视化，但其理解和审计能力可以弥补生成模型的不足。将生成和审计分离使两端都能发挥各自优势。
精修模块（Refinement Module via RL Training）:
- 功能：根据编辑指令精确修正生成图像中的错误
- 核心思路：发现 base 编辑模型（Qwen-Image-Edit）多轮精修会越修越差（性能退化），而 Wan2.5-I2I-Preview 则能持续改善。这说明 pipeline 逻辑正确，瓶颈在精修模型能力。因此用 RL（GRPO 算法）训练精修模块。先训练一个奖励模型（RM）——基于 Qwen2.5-VL-3B 用 Bradley-Terry 损失在 30K 偏好对上微调，输出标量质量分数。再用 RM + ImageReward 作为复合奖励，在 5K 经过质量筛选的精修样本上做 GRPO 训练（基于 Qwen-Image-Edit-2509 的蒸馏版）。
- 设计动机：直接用现有编辑模型做迭代精修会错误累积，必须专门训练以适应迭代纠错场景。RL 训练比 SFT 更适合优化这类需要平衡多维度质量的任务。

数据构建¶

三个自动数据管道：(1) 重写数据：30K 条 table→description（双审核一致性筛选）；(2) 奖励数据：30K 偏好对（GPT-5 + Gemini 投票）；(3) 精修数据：5K 条——为每个样本生成 5 个精修候选，筛掉全好/全差的极端样本，保留有区分度的。数据来源于 SlideVQA、OpenImages、Cambrian-10M。

实验关键数据¶

主实验（TableVisBench, Score 越高越好）¶

基线模型	原始 Score	+RW Score	+RW+REF Score	提升
Flux	29.3	32.1	36.4	+7.1
Bagel	10.1	19.5	32.7	+22.6
Blip3o-Next	10.8	14.1	34.8	+24.0
UniWorld-V1	14.8	18.6	33.5	+18.7
OmniGen2	14.4	21.9	29.9	+15.5
Qwen-Image	44.3	54.3	54.9	+10.6

消融实验¶

重写模块:

配置	DA	RR	Score
无重写	47.5	26.1	44.3
Qwen3-8B	30.6	46.6	46.8
GPT-5	35.9	47.8	51.2
Gemini-2.5-pro	40.8	53.9	53.3
Qwen3-8B* (微调)	51.2	50.1	54.3

精修模块（多轮效果）:

精修模型	Round 0	Round 1	Round 2	Round 3
Qwen-Image-Edit (base)	54.3	51.8	50.1	49.4 ↓
Qwen-Image-Edit* (我们训练)	54.3	53.7	54.8	54.9 ↑
Wan2.5-I2I-Preview	54.3	61.3	62.8	63.4 ↑

关键发现¶

弱基线模型受益最大——Bagel 从 10.1 提升到 32.7（+22.6），Blip3o-Next 从 10.8 到 34.8（+24.0）
重写模块贡献最大的维度是 Relative Relationship（RR），QI 从 26.1 跳到 50.1
Base 精修模型越修越差（54.3→49.4）证实精修能力是瓶颈，RL 训练后逆转为持续改善（54.3→54.9）
微调重写模块的 Data Accuracy（51.2）甚至超过 Reference-Caption（50.3），说明专门训练的规划比人工描述更适合生成模型
使用 Wan2.5 作为精修器可达 63.4，但开源模型通过 RL 训练也能明显提升（+5.5）

亮点与洞察¶

精修瓶颈的发现与解决：通过替换精修模型的对照实验，证明了 pipeline 正确而模型能力不足，然后有针对性地用 RL 解决，方法论很清晰
奖励模型的构建思路可复用：MLLM 直接打分不稳定，改用偏好对训练小型 RM 作为中间桥梁，这个模式适用于任何需要 MLLM 评估的 RL 场景
提出了一个实用且有挑战的新任务：创意表格可视化直接关联海报/幻灯片/报告自动生成，实用价值明确

局限与展望¶

Reflection 依赖 GPT-5，成本高且不可开源复现
迭代精修最多 3 轮，对于非常复杂的表格可能不够
当前评估维度中 Aesthetic Quality（AQ）分数各方法差异不大（4.3-4.6），说明美学评估粒度可能不够
仅支持静态信息图生成，不支持交互式图表或动画
数据筛选依赖 GPT-5 和 Gemini 的共识，可能存在偏见

评分¶

新颖性: ⭐⭐⭐⭐ 新任务定义有价值，MLLM+扩散模型协同的自纠错框架有见地，精修的 RL 训练有创意
实验充分度: ⭐⭐⭐⭐⭐ 6 个基线模型 × 3 种配置、详细消融、5 维度评估体系、丰富案例分析
写作质量: ⭐⭐⭐⭐ 图表丰富直观，pipeline 描述清晰，问题发现→解决的逻辑链完整
价值: ⭐⭐⭐⭐ 任务本身有明确应用场景（幻灯片/报告自动生成），benchmark 和训练管线可供社区使用