跳转至

GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning

日期: 2026-03-24
arXiv: 2603.22687
代码: 无
领域: 多模态/VLM / 几何推理 / 代码生成
关键词: geometric code generation, TikZ, iterative self-refinement, multimodal benchmark, visual reasoning

一句话总结

提出 GeoTikzBridge,一个几何图像到 TikZ 代码的生成框架:通过迭代自精炼从 145K 种子对扩展到 250 万高质量几何图-代码对(CLIP 过滤+局部化代码变换增强),构建 GeoTikz-Base (2.5M) 和 GeoTikz-Instruct (419K) 数据集,InternVL3-78B 达 0.860 CLIP-S / 92.3% 代码成功率,即插即用集成下游任务。

研究背景与动机

  1. 领域现状: MLLM 在 UI/图表等 Img2Code 任务上进步显著,但对细粒度几何结构(线段、角度、辅助线等)的理解仍然薄弱。

  2. 现有痛点: 大规模几何图像-代码数据集匮乏;现有增强方法(如整图变换)无法捕捉细微几何变化。

  3. 核心 idea: TikZ 的结构化语法天然记录了几何推理的逻辑步骤,比 SVG 更适合几何推理;迭代自精炼 + 局部化代码变换可低成本扩展高质量数据。

方法详解

整体框架

从 DaTikZ 的 145K 种子对出发,通过 4 轮迭代自精炼扩展到 250 万高质量几何图-TikZ 代码对(GeoTikz-Base),再构建 419K 指令增强的 GeoTikz-Instruct 数据集用于辅助线生成任务。

关键设计

  1. 迭代自精炼框架:

    • 每轮:模型生成代码→渲染→CLIP 评分过滤(\(\tau=0.8\))→扩充数据集→重训练
    • 自精炼集:\(\mathcal{D}_k^R=\{(\hat{I},\hat{C})|\hat{C}=M_k(I), \hat{I}=\mathcal{R}(\hat{C}), s(I,\hat{I})>\tau\}\)
    • 4 轮迭代:145K→190K→750K→1.8M→2.5M
    • CLIP 过滤阈值 0.8 是最优——质量比数量更重要(0.6 得 3.24M 但 CLIP-S 更低)
  2. 局部化代码变换:

    • 随机删除 1~n 行 TikZ 代码(n ≤ 40% 总行数),渲染缺失元素的图像
    • 变换集:\(\mathcal{D}_k^T=\{(\tilde{I},\tilde{C})|\tilde{C}=\mathcal{T}(\hat{C}), \tilde{I}=\mathcal{R}(\tilde{C})\}\)
    • 强制模型学习细粒度几何语义(某条线、某个角、某段弧)而非记忆模板
    • 代码重复预测率降低 15%,CSR 提升 2.6%
  3. 即插即用下游集成:

    • LLM/VLM 先调用 GeoTikzBridge 生成 TikZ 代码,再用代码辅助推理
    • 关键发现:TikZ 代码比增强图像更有效(+2.8% vs +1.3%)
    • VLM 灾难性遗忘问题:微调后 VLM 推理能力下降,LLM+TikZ 组合效果更好(0.889 vs 0.764)
  4. GeoTikz-Instruct: 419K 指令增强数据集,Qwen2.5-VL-72B 生成指令 + Doubao VLM 过滤

实验关键数据

图像到 TikZ 代码

模型 DaTikZ CLIP-S MathVista CLIP-S CSR
Qwen2.5-VL-72B 0.795 0.858 81.5%
FigCodifier-8B 0.803 0.871 86.7%
GeoTikzBridge-38B 0.813 0.915 95.2%

下游几何推理

配置 MathVista GAOKAO-MM
Qwen3-VL baseline 0.697 0.550
+ GeoTikzBridge 0.697 (+0%) -
GLM-OSS-120B + TikZ 0.889 0.688
GPT-4o baseline 0.647 -

TikZ 代码辅助让 GLM-OSS 超越 GPT-4o(0.889 vs 0.647)

辅助线生成 (GeoTikz-Instruct)

指标 FigCodifier GeoTikzBridge
MSE↓ 1435.9 211.7 (−85.3%)
SSIM↑ 0.135 0.844 (6.3×)
FID↓ 9.798 1.158 (8.5×)
CSR↑ 88.0% 96.7%

消融实验

配置 CLIP-S CSR
无变换 0.884 93.5%
+ 代码变换 0.892 96.1%
+ 代码+图像变换 0.895 97.1%

亮点与洞察

  • TikZ 优于 SVG 做几何推理——TikZ 的结构化语法直接编码几何逻辑步骤(画线→标角→连接)
  • 局部代码删除比整图增强更能训练细粒度几何感知,代码重复率降 15% 证明模型学到了新能力
  • 250 万对是几何领域最大的 image-code 数据集
  • LLM+TikZ > VLM+图像这个发现很有价值——说明结构化代码表示比视觉特征更适合几何推理
  • VLM 微调的灾难性遗忘问题值得关注

局限性 / 可改进方向

  • 复杂几何图形的 token 截断导致性能下降
  • 平行线绘制因方向一致性约束精度不足
  • 立体几何/解析几何的支持较弱
  • 数据集构建严重依赖 CLIP 评分,不同视觉模型可能偏好不同几何特征
  • 辅助线生成限于单步生成,多步辅助构造未能覆盖

评分

  • 新颖性: ⭐⭐⭐ 数据工程为主,自精炼框架和局部变换有创新但方法创新中等
  • 实验充分度: ⭐⭐⭐⭐ 多 benchmark + 下游任务验证 + 消融完整
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,流程图直观
  • 价值: ⭐⭐⭐⭐ 数据集有长期价值,TikZ→推理的 pipeline 实用性强