GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs¶
会议: ICLR2026
arXiv: 2505.17653
代码: GitHub
领域: llm_reasoning
关键词: 几何推理, 程序转几何, Benchmark, 空间推理, Asymptote代码
一句话总结¶
提出Program-to-Geometry任务和GeoGramBench(500题),用三级几何复杂度分类法(基元识别/局部组合/全局抽象)评估19个前沿LLM从程序代码构建几何表征并推理的能力,发现所有模型在最高抽象级别准确率均低于50%。
背景与动机¶
- 几何空间推理是AI的基础能力(机器人/自动驾驶/自动设计),但LLM从过程式代码进行几何推理的能力被严重低估
- 现有benchmark(MATH-500/AIME24)包含少量Asymptote代码题,但缺乏系统性评测
- DeepSeek-R1在含代码的几何题(ℙ_TC)上相比纯文本题(ℙ_T)准确率骤降23.5%(AIME24)和10.9%(MATH-500)
- 现有分类法基于推理难度(高中→竞赛),而非几何结构复杂度——后者才是代码→几何任务的核心挑战
- 答案泄露问题(代码中直接/间接包含答案)未被充分关注
- 缺少专门评估从符号化过程式代码到空间几何理解的benchmark
方法详解¶
任务定义:Program-to-Geometry——模型解读过程式绘图代码(Asymptote/Matplotlib)构建几何表征,再进行数学推理获得答案(长度/面积/体积/角度/比率/计数)。
三级分类法(按几何复杂度): - Primitive Recognition:仅含1-2个几何基元(点/线/弧/圆/多边形),关注基本性质 - Local Relation Composition:多个局部几何元素,需组合空间关系 - Global Abstract Integration:涉及3D对象/旋转/折叠/投影/递归等,需全局空间推理
Benchmark构建:从905K题中筛选→1,247含Asymptote代码的几何题→547题(格式标准化)→392题(去污染+答案泄露防护+正确性验证)→补充AIME24/MATH-500/Mathverse至500题。答案泄露防护:直接泄露→坐标重缩放;间接泄露→参数修改/遮蔽。
实验关键数据¶
| 模型 | Primitive | Compositional | Abstract | 总体 |
|---|---|---|---|---|
| GPT-5 | 90.44% | 84.59% | 39.26% | 75.01% |
| Qwen3-235B | 89.09% | 79.12% | 49.05% | 74.00% |
| GPT-o1 | 85.92% | 76.12% | 44.67% | 70.92% |
| DeepSeek-R1 | 83.16% | 69.07% | 36.75% | 64.63% |
- 所有19个模型在Abstract级别均<50%准确率
- 最难子类型:Primitive/Compositional级角度题;Abstract级面积和体积题
- 从Primitive到Abstract准确率平均下降40+个百分点
亮点¶
- 形式化定义Program-to-Geometry任务,填补评测空白
- 三级几何复杂度分类比推理难度分类更适合本任务(有实证支持)
- 系统化处理答案泄露问题(直接+间接),提高benchmark可靠性
- 19个模型的大规模评测,包含最新GPT-5和Qwen3
- 识别出3D几何(面积/体积)是当前LLM的关键瓶颈
局限性 / 可改进方向¶
- 仅500题,规模有限,各级别分布可能不够均衡
- 仅评估text-only LLM,未纳入多模态模型(可将代码渲染为图像)
- 仅关注Asymptote和Matplotlib两种绘图语言
- 未提出针对性的模型改进方案,主要是诊断性工作
- 部分题目来自公开数据集,即使做了去污染,仍有数据污染风险
与相关工作的对比¶
- 相比MathVerse/GeoSense等视觉几何benchmark,聚焦过程式代码而非图像
- 相比SGP-Bench等SVG理解benchmark,聚焦数学几何推理而非图形识别
- 相比MATH-500/AIME24中的少量代码题,GeoGramBench更系统且处理了答案泄露
- 分类法创新:按几何复杂度而非数学推理步骤分级
评分¶
- 新颖性: ⭐⭐⭐⭐ (任务定义和分类法有新意)
- 实验充分度: ⭐⭐⭐⭐⭐ (19模型覆盖面广,分析细致)
- 写作质量: ⭐⭐⭐⭐ (结构清晰RQ引导)
- 价值: ⭐⭐⭐⭐ (揭示LLM在几何代码推理上的系统性弱点)