GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning¶

日期: 2026-03-24
arXiv: 2603.22687
代码: 无
领域: 多模态/VLM / 几何推理 / 代码生成
关键词: geometric code generation, TikZ, iterative self-refinement, multimodal benchmark, visual reasoning

一句话总结¶

提出 GeoTikzBridge，一个几何图像到 TikZ 代码的生成框架：通过迭代自精炼从 145K 种子对扩展到 250 万高质量几何图-代码对（CLIP 过滤+局部化代码变换增强），构建 GeoTikz-Base (2.5M) 和 GeoTikz-Instruct (419K) 数据集，InternVL3-78B 达 0.860 CLIP-S / 92.3% 代码成功率，即插即用集成下游任务。

研究背景与动机¶

领域现状: MLLM 在 UI/图表等 Img2Code 任务上进步显著，但对细粒度几何结构（线段、角度、辅助线等）的理解仍然薄弱。
现有痛点: 大规模几何图像-代码数据集匮乏；现有增强方法（如整图变换）无法捕捉细微几何变化。
核心 idea: TikZ 的结构化语法天然记录了几何推理的逻辑步骤，比 SVG 更适合几何推理；迭代自精炼 + 局部化代码变换可低成本扩展高质量数据。

方法详解¶

整体框架¶

从 DaTikZ 的 145K 种子对出发，通过 4 轮迭代自精炼扩展到 250 万高质量几何图-TikZ 代码对（GeoTikz-Base），再构建 419K 指令增强的 GeoTikz-Instruct 数据集用于辅助线生成任务。

关键设计¶

迭代自精炼框架:
- 每轮：模型生成代码→渲染→CLIP 评分过滤（\(\tau=0.8\)）→扩充数据集→重训练
- 自精炼集：\(\mathcal{D}_k^R=\{(\hat{I},\hat{C})|\hat{C}=M_k(I), \hat{I}=\mathcal{R}(\hat{C}), s(I,\hat{I})>\tau\}\)
- 4 轮迭代：145K→190K→750K→1.8M→2.5M
- CLIP 过滤阈值 0.8 是最优——质量比数量更重要（0.6 得 3.24M 但 CLIP-S 更低）
局部化代码变换:
- 随机删除 1~n 行 TikZ 代码（n ≤ 40% 总行数），渲染缺失元素的图像
- 变换集：\(\mathcal{D}_k^T=\{(\tilde{I},\tilde{C})|\tilde{C}=\mathcal{T}(\hat{C}), \tilde{I}=\mathcal{R}(\tilde{C})\}\)
- 强制模型学习细粒度几何语义（某条线、某个角、某段弧）而非记忆模板
- 代码重复预测率降低 15%，CSR 提升 2.6%
即插即用下游集成:
- LLM/VLM 先调用 GeoTikzBridge 生成 TikZ 代码，再用代码辅助推理
- 关键发现：TikZ 代码比增强图像更有效（+2.8% vs +1.3%）
- VLM 灾难性遗忘问题：微调后 VLM 推理能力下降，LLM+TikZ 组合效果更好（0.889 vs 0.764）
GeoTikz-Instruct: 419K 指令增强数据集，Qwen2.5-VL-72B 生成指令 + Doubao VLM 过滤

实验关键数据¶

图像到 TikZ 代码¶

模型	DaTikZ CLIP-S	MathVista CLIP-S	CSR
Qwen2.5-VL-72B	0.795	0.858	81.5%
FigCodifier-8B	0.803	0.871	86.7%
GeoTikzBridge-38B	0.813	0.915	95.2%

下游几何推理¶

配置	MathVista	GAOKAO-MM
Qwen3-VL baseline	0.697	0.550
+ GeoTikzBridge	0.697 (+0%)	-
GLM-OSS-120B + TikZ	0.889	0.688
GPT-4o baseline	0.647	-

TikZ 代码辅助让 GLM-OSS 超越 GPT-4o（0.889 vs 0.647）

辅助线生成 (GeoTikz-Instruct)¶

指标	FigCodifier	GeoTikzBridge
MSE↓	1435.9	211.7 (−85.3%)
SSIM↑	0.135	0.844 (6.3×)
FID↓	9.798	1.158 (8.5×)
CSR↑	88.0%	96.7%

消融实验¶

配置	CLIP-S	CSR
无变换	0.884	93.5%
+ 代码变换	0.892	96.1%
+ 代码+图像变换	0.895	97.1%

亮点与洞察¶

TikZ 优于 SVG 做几何推理——TikZ 的结构化语法直接编码几何逻辑步骤（画线→标角→连接）
局部代码删除比整图增强更能训练细粒度几何感知，代码重复率降 15% 证明模型学到了新能力
250 万对是几何领域最大的 image-code 数据集
LLM+TikZ > VLM+图像这个发现很有价值——说明结构化代码表示比视觉特征更适合几何推理
VLM 微调的灾难性遗忘问题值得关注

局限性 / 可改进方向¶

复杂几何图形的 token 截断导致性能下降
平行线绘制因方向一致性约束精度不足
立体几何/解析几何的支持较弱
数据集构建严重依赖 CLIP 评分，不同视觉模型可能偏好不同几何特征
辅助线生成限于单步生成，多步辅助构造未能覆盖

评分¶

新颖性: ⭐⭐⭐ 数据工程为主，自精炼框架和局部变换有创新但方法创新中等
实验充分度: ⭐⭐⭐⭐ 多 benchmark + 下游任务验证 + 消融完整
写作质量: ⭐⭐⭐⭐ 清晰系统，流程图直观
价值: ⭐⭐⭐⭐ 数据集有长期价值，TikZ→推理的 pipeline 实用性强