TikZero: Zero-Shot Text-Guided Graphics Program Synthesis¶
会议: ICCV 2025 (Highlight)
arXiv: 2503.11509
代码: potamides/DeTikZify
领域: nlp_generation
关键词: 图形程序合成, TikZ, 零样本, 文本引导, 多模态语言模型, 图像桥接
一句话总结¶
提出 TikZero,通过将图像表示作为中间桥梁,将图形程序生成与文本理解解耦,实现零样本文本引导的 TikZ 图形程序合成,在无需文本对齐训练数据的情况下大幅超越基线方法,经端到端微调后的 TikZero+ 达到甚至超越 GPT-4o 等大型商业模型的性能。
研究背景与动机¶
从文本描述自动生成科学图表 是一项极具吸引力的能力。生成的图表需要具备高几何精度和可编辑性,这要求将图表表示为 TikZ 等图形编程语言的程序,而非栅格图像。然而,当前该领域面临一个核心数据瓶颈:
对齐训练数据极度稀缺:理想的训练数据应该是"文本描述 + 对应 TikZ 程序"的配对,但这种数据非常难以大规模获取。手动为 TikZ 代码编写描述成本过高,现有数据集规模很小
非对齐数据充裕但难以利用:大量无标注的 TikZ 程序(如从 arXiv 论文中提取)和大量带描述的栅格图像(如自然图像数据集)分别存在,但它们之间缺乏对应关系,传统端到端方法无法直接利用
现有方法的局限: - 端到端模型(如 DeTikZify)需要文本-程序对齐数据进行训练,受限于数据规模 - 通用大模型(如 GPT-4o)虽然能力强大,但参数量巨大、推理成本高昂,且不专门针对图形程序合成任务优化
核心洞察:文本到图形程序的过程可以分解为两步——文本到图像表示,再从图像表示到图形程序。既然"图像→TikZ 代码"和"文本→图像"两个方向都有大量独立数据可供训练,何不将它们通过图像表示这个中间桥梁连接起来?
方法详解¶
核心思路:图像表示作为桥梁¶
TikZero 的核心创新是 解耦(decoupling) 策略:将"文本→图形程序"任务分解为两个独立可训练的子任务:
- 图像→图形程序:在大量无标注的 TikZ 程序上训练(将编译后的渲染图像作为输入条件)
- 文本→图像表示:在大量带描述的栅格图像上训练(学习将文本映射到图像嵌入空间)
推理时将两者串联,文本描述先映射到图像嵌入空间,再由图形程序生成模型输出 TikZ 代码,从而实现 零样本 文本引导的图形程序合成。
架构设计¶
TikZero 建立在 DeTikZifyv2 (8B) 之上,后者是基于 Idefics3/LLaMA3 架构的多模态语言模型,专门用于图像到 TikZ 代码的生成。TikZero 在此基础上引入了以下关键组件:
1. 图像编码器与图形程序解码器(来自 DeTikZifyv2)¶
DeTikZifyv2 的核心管线:
- 视觉编码器:将输入图像编码为视觉 token 序列
- 跨模态投影:将视觉 token 投影到语言模型的嵌入空间
- LLM 解码器:基于 LLaMA3-8B,自回归地生成 TikZ 代码 token
该模型在 DaTikZv2/v3 数据集(从 arXiv 提取的大量 TikZ 程序及其编译渲染图像)上训练,具备强大的图像到代码能力。
2. 文本-图像适配器(TikZero 核心贡献)¶
TikZero 的关键创新在于引入一个 适配器模块(adapter),将文本嵌入映射到 DeTikZifyv2 的图像嵌入空间。架构灵感来源于 Flamingo 和 LLaMA 3.2-Vision 中的跨注意力机制:
- 文本编码器:使用独立的语言模型(如 LLaMA 3.2-1B)编码文本描述
- 跨注意力层:将文本嵌入通过交叉注意力机制映射到图像嵌入空间,使得文本产生的嵌入在分布上接近真实图像的嵌入
- 训练目标:最小化文本嵌入与对应图像嵌入之间的距离(支持余弦距离和 MSE 两种训练变体)
适配器仅有约 0.4B 参数,可以即插即用地加载到 DeTikZifyv2 中。
3. TikZero+ 端到端微调¶
在 TikZero 的零样本方案基础上,TikZero+ 进一步利用少量可用的文本-程序对齐数据进行端到端微调:
- 将 TikZero 适配器与 DeTikZifyv2 合并为一个 10B 参数的完整模型
- 在对齐数据上做端到端训练,让两个子模块协同优化
- 这使得模型不仅具备零样本泛化能力,还能在有标注数据的分布上进一步提升
训练数据¶
TikZero 利用三类数据源:
| 数据类型 | 数据来源 | 用途 |
|---|---|---|
| 无标注 TikZ 程序 | DaTikZv2/v3(arXiv 提取) | 训练图像→代码模型 |
| 带描述的栅格图像 | 通用图文数据集 | 训练文本→图像嵌入适配器 |
| 对齐的文本-TikZ 对 | 少量标注数据 | TikZero+ 端到端微调 |
推理流程¶
- 用户输入文本描述(如 "A multi-layer perceptron with two hidden layers")
- 文本编码器 + 适配器将描述映射为图像嵌入
- DeTikZifyv2 将该嵌入当作"虚拟图像输入",自回归生成 TikZ 代码
- TikZ 代码可由 LaTeX 编译为高质量矢量图形
实验关键数据¶
主要结果¶
- 零样本设定:TikZero(仅使用非对齐数据训练)大幅超越只能使用对齐数据训练的基线方法
- 有监督设定:TikZero+(额外使用对齐数据微调)匹配甚至超越 GPT-4o 等大型商业系统的性能
- 模型效率:TikZero 适配器仅 0.4B 参数,TikZero+ 完整模型 10B 参数,远小于 GPT-4o 等千亿级模型
评估指标¶
实验使用多维度评估体系:
- 编译成功率:生成的 TikZ 代码能否成功编译
- 视觉相似度:生成图形与参考图形的像素级/语义级相似度
- 语义保真度:生成图形是否准确表达了文本描述的语义内容
与基线对比¶
| 方法 | 数据需求 | 模型规模 | 性能 |
|---|---|---|---|
| 仅对齐数据训练的基线 | 对齐数据 | 8B | 较低 |
| TikZero(零样本) | 非对齐数据 | 8B + 0.4B 适配器 | 大幅优于基线 |
| TikZero+ | 非对齐 + 对齐数据 | 10B | 匹配/超越 GPT-4o |
| GPT-4o | 预训练通用数据 | >>100B | 强但不专精 |
后续改进:DeTikZifyv2.5¶
基于 TikZero 的工作,团队进一步通过 强化学习自反馈(RLSF,Reinforcement Learning from Self-Feedback) 在 DeTikZifyv2 基础上训练得到 v2.5 版本,实现了额外的性能提升。其中 GRPO(Group Relative Policy Optimization)训练脚本也已开源。
亮点与洞察¶
- 解耦训练范式的优雅性:TikZero 将数据稀缺问题转化为一个桥接问题——利用图像作为两种丰富数据源的交汇点,这一思路不局限于 TikZ,可推广到任何"目标域数据对齐难但分别丰富"的场景(如代码生成、CAD 建模等)
- 即插即用的轻量适配器:仅 0.4B 参数的适配器即可在 8B 的基础模型上实现零样本文本条件化,无需重新训练整个模型,部署成本极低
- ICCV 2025 Highlight 论文:该工作被选为 ICCV 2025 的 highlight paper,体现了审稿人对其方法新颖性和实验扎实性的高度认可
- 完整的开源生态:代码(GitHub 1.8k stars)、模型权重(HuggingFace)、数据集、Web UI、Colab Demo 全部开源,可复现性极强
- 从零样本到有监督的平滑过渡:TikZero → TikZero+ 的过渡表明,解耦训练不仅在零样本下有效,作为端到端训练的初始化也能带来增益,两种范式可以互补
局限与展望¶
- 图像桥接的信息损失:文本→图像嵌入→代码的两步映射可能引入信息瓶颈——某些文本中的精确数值信息(如坐标、尺寸)在映射到图像嵌入空间时可能损失
- TikZ 语言的局限:TikZ 虽然表达力强,但相比 SVG 等更通用的矢量图格式,其使用群体较小,应用场景主要集中在学术论文领域
- 编译依赖:生成的 TikZ 代码需要完整的 TeX Live 环境编译,增加了部署复杂度
- 适配器的泛化边界:适配器在训练分布外的文本描述上表现如何(如高度抽象或非科学领域的图表描述),有待进一步评估
- 对齐数据仍有价值:TikZero+ 相比纯零样本 TikZero 的提升说明对齐数据仍然重要,如何高效获取更多高质量对齐数据(如通过 LLM 自动标注)是值得探索的方向
相关工作与启发¶
- DeTikZify (NeurIPS 2024 Spotlight):TikZero 的前身,专注于图像到 TikZ 的多模态语言模型,使用 MCTS 进行迭代推理优化
- AutomaTikZ:更早期的 TikZ 自动生成工作,DeTikZify 系列在其基础上发展
- Flamingo / LLaMA 3.2-Vision:TikZero 的跨注意力适配器设计灵感来源
- Idefics3:DeTikZifyv2 的基础架构来源
对后续研究的启发:
- 图像作为模态桥梁的思路可推广到更多跨模态生成任务(如文本→SVG、文本→CAD、文本→音乐)
- 轻量适配器实现零样本跨模态迁移的范式,为低资源场景下的模型复用提供了新思路
- 解耦训练 + 端到端微调的两阶段策略,在数据不完全对齐的场景中具有普适价值
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评
相关论文¶
- [NeurIPS 2025] Program Synthesis via Test-Time Transduction
- [AAAI 2026] TAPA: Training-Free Adaptation of Programmatic Agents via LLM-Guided Program Synthesis in Dynamic Environments
- [ACL 2025] Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment
- [NeurIPS 2025] Once Upon an Input: Reasoning via Per-Instance Program Synthesis
- [NeurIPS 2025] FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis