GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning¶
日期: 2026-03-24
arXiv: 2603.22687
代码: 无
领域: 多模态/VLM / 几何推理 / 代码生成
关键词: geometric code generation, TikZ, iterative self-refinement, multimodal benchmark, visual reasoning
一句话总结¶
提出 GeoTikzBridge,一个几何图像到 TikZ 代码的生成框架:通过迭代自精炼从 145K 种子对扩展到 250 万高质量几何图-代码对(CLIP 过滤+局部化代码变换增强),构建 GeoTikz-Base (2.5M) 和 GeoTikz-Instruct (419K) 数据集,InternVL3-78B 达 0.860 CLIP-S / 92.3% 代码成功率,即插即用集成下游任务。
研究背景与动机¶
-
领域现状: MLLM 在 UI/图表等 Img2Code 任务上进步显著,但对细粒度几何结构(线段、角度、辅助线等)的理解仍然薄弱。
-
现有痛点: 大规模几何图像-代码数据集匮乏;现有增强方法(如整图变换)无法捕捉细微几何变化。
-
核心 idea: TikZ 的结构化语法天然记录了几何推理的逻辑步骤,比 SVG 更适合几何推理;迭代自精炼 + 局部化代码变换可低成本扩展高质量数据。
方法详解¶
整体框架¶
从 DaTikZ 的 145K 种子对出发,通过 4 轮迭代自精炼扩展到 250 万高质量几何图-TikZ 代码对(GeoTikz-Base),再构建 419K 指令增强的 GeoTikz-Instruct 数据集用于辅助线生成任务。
关键设计¶
-
迭代自精炼框架:
- 每轮:模型生成代码→渲染→CLIP 评分过滤(\(\tau=0.8\))→扩充数据集→重训练
- 自精炼集:\(\mathcal{D}_k^R=\{(\hat{I},\hat{C})|\hat{C}=M_k(I), \hat{I}=\mathcal{R}(\hat{C}), s(I,\hat{I})>\tau\}\)
- 4 轮迭代:145K→190K→750K→1.8M→2.5M
- CLIP 过滤阈值 0.8 是最优——质量比数量更重要(0.6 得 3.24M 但 CLIP-S 更低)
-
局部化代码变换:
- 随机删除 1~n 行 TikZ 代码(n ≤ 40% 总行数),渲染缺失元素的图像
- 变换集:\(\mathcal{D}_k^T=\{(\tilde{I},\tilde{C})|\tilde{C}=\mathcal{T}(\hat{C}), \tilde{I}=\mathcal{R}(\tilde{C})\}\)
- 强制模型学习细粒度几何语义(某条线、某个角、某段弧)而非记忆模板
- 代码重复预测率降低 15%,CSR 提升 2.6%
-
即插即用下游集成:
- LLM/VLM 先调用 GeoTikzBridge 生成 TikZ 代码,再用代码辅助推理
- 关键发现:TikZ 代码比增强图像更有效(+2.8% vs +1.3%)
- VLM 灾难性遗忘问题:微调后 VLM 推理能力下降,LLM+TikZ 组合效果更好(0.889 vs 0.764)
-
GeoTikz-Instruct: 419K 指令增强数据集,Qwen2.5-VL-72B 生成指令 + Doubao VLM 过滤
实验关键数据¶
图像到 TikZ 代码¶
| 模型 | DaTikZ CLIP-S | MathVista CLIP-S | CSR |
|---|---|---|---|
| Qwen2.5-VL-72B | 0.795 | 0.858 | 81.5% |
| FigCodifier-8B | 0.803 | 0.871 | 86.7% |
| GeoTikzBridge-38B | 0.813 | 0.915 | 95.2% |
下游几何推理¶
| 配置 | MathVista | GAOKAO-MM |
|---|---|---|
| Qwen3-VL baseline | 0.697 | 0.550 |
| + GeoTikzBridge | 0.697 (+0%) | - |
| GLM-OSS-120B + TikZ | 0.889 | 0.688 |
| GPT-4o baseline | 0.647 | - |
TikZ 代码辅助让 GLM-OSS 超越 GPT-4o(0.889 vs 0.647)
辅助线生成 (GeoTikz-Instruct)¶
| 指标 | FigCodifier | GeoTikzBridge |
|---|---|---|
| MSE↓ | 1435.9 | 211.7 (−85.3%) |
| SSIM↑ | 0.135 | 0.844 (6.3×) |
| FID↓ | 9.798 | 1.158 (8.5×) |
| CSR↑ | 88.0% | 96.7% |
消融实验¶
| 配置 | CLIP-S | CSR |
|---|---|---|
| 无变换 | 0.884 | 93.5% |
| + 代码变换 | 0.892 | 96.1% |
| + 代码+图像变换 | 0.895 | 97.1% |
亮点与洞察¶
- TikZ 优于 SVG 做几何推理——TikZ 的结构化语法直接编码几何逻辑步骤(画线→标角→连接)
- 局部代码删除比整图增强更能训练细粒度几何感知,代码重复率降 15% 证明模型学到了新能力
- 250 万对是几何领域最大的 image-code 数据集
- LLM+TikZ > VLM+图像这个发现很有价值——说明结构化代码表示比视觉特征更适合几何推理
- VLM 微调的灾难性遗忘问题值得关注
局限性 / 可改进方向¶
- 复杂几何图形的 token 截断导致性能下降
- 平行线绘制因方向一致性约束精度不足
- 立体几何/解析几何的支持较弱
- 数据集构建严重依赖 CLIP 评分,不同视觉模型可能偏好不同几何特征
- 辅助线生成限于单步生成,多步辅助构造未能覆盖
评分¶
- 新颖性: ⭐⭐⭐ 数据工程为主,自精炼框架和局部变换有创新但方法创新中等
- 实验充分度: ⭐⭐⭐⭐ 多 benchmark + 下游任务验证 + 消融完整
- 写作质量: ⭐⭐⭐⭐ 清晰系统,流程图直观
- 价值: ⭐⭐⭐⭐ 数据集有长期价值,TikZ→推理的 pipeline 实用性强