FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis¶
会议: NeurIPS 2025
arXiv: 2511.06522
代码: https://github.com/NaiveNeuron/FractalBench
领域: multimodal_vlm
关键词: 分形, 视觉数学推理, 程序合成, MLLM评测, 递归抽象
一句话总结¶
提出 FractalBench,一个通过分形图像程序合成诊断 MLLM 视觉-数学推理能力的 benchmark:12 种经典分形、610 张测试图、4 个 MLLM,揭示 76% 的代码能执行但仅 4% 视觉正确,暴露了模型在递归抽象能力上的根本缺陷。
研究背景与动机¶
- 领域现状:MLLM 在多种视觉理解任务上表现出色,但对视觉-数学推理的评估尚不充分。TurtleBench 仅测试简单几何形状绘制(19% 准确率),MathVista/MATH-Vision 评估带视觉上下文的数学解题,MATHGLANCE 发现模型"不知道该看哪里"。
- 现有痛点:现有基准主要测试"将数学知识应用于视觉问题",而非"从视觉模式中抽象数学规则"——即推断有限观察背后的无限生成过程。
- 核心矛盾:模型能否从自相似的视觉模式中推断出递归生成规则?这是数学发现的核心能力,但缺乏系统性的诊断基准。
- 本文要解决什么:提供一个靶向诊断工具,系统评估 MLLM 的尺度不变性识别、几何变换推断、递归结构抽象、组合推理和分支递归等层级能力。
- 切入角度:分形是理想测试对象——由 IFS(迭代函数系统)中少数几个压缩映射通过简单递归生成极其复杂的自相似模式,要求模型同时具备视觉感知和数学抽象能力。
- 核心idea一句话:用分形程序合成作为诊断探针,测试 MLLM 能否从图像推断递归生成规则,而非记忆模式。
方法详解¶
整体框架¶
FractalBench 包含 12 种经典分形(Cantor 集、Koch 曲线、Sierpiński 结构、Dragon 曲线、Tree 分形),610 张 1024×1024 测试图(4-12 层递归深度,变化颜色)。模型输入分形图像,需输出能再现该分形的 Python 代码(使用 MinimalTurtle 接口),在沙盒环境中执行后用 IoU 与 ground truth 比较。
关键设计¶
- IFS 形式化分形定义:
- 做什么:为每种分形提供严格的数学定义
- 核心思路:每种分形是压缩映射 \(f_1, \ldots, f_m: \mathbb{R}^d \to \mathbb{R}^d\) 的 IFS 吸引子,即满足 \(K = \bigcup_{i=1}^m f_i(K)\) 的唯一紧集。如 Koch 曲线包含 4 个映射(缩放 \(1/3\) + 旋转 \(\pm 60°\) + 平移)
-
设计动机:IFS 提供了明确的 ground truth 生成规则,使评估有客观标准
-
MinimalTurtle 受限接口:
- 做什么:限制模型只能使用 4 条命令(move, turn, pen up/down)
- 核心思路:刻意限制 API 以隔离视觉到符号规则抽象能力——更丰富的 API(如 L-systems、matplotlib)会让模型通过模板回忆绕过数学推理
-
设计动机:类似形式语言评估中的最小语法测试,确保诊断的是推理能力而非 API 记忆
-
五层能力层级:
- 做什么:定义从简到难的推理要求层级
- 核心思路:(1) 尺度不变性识别→(2) 几何变换推断→(3) 递归结构抽象→(4) 组合推理→(5) 分支递归。每种分形类型靶向测试不同层级
-
设计动机:通过不同分形类型的成功率差异精确定位模型失败的具体能力层级
-
抗污染设计:
- 做什么:通过可参数化的递归深度和颜色变体防止记忆效应
- 核心思路:彩色变体防止模型依赖预训练时记住的经典黑色分形视觉嵌入
- 设计动机:确保测试的是真正的视觉-数学推理而非模式匹配
评估方法¶
使用 IoU(Jaccard Index):\(\text{IoU} = |\mathcal{B}_a \cap \mathcal{B}_m| / |\mathcal{B}_a \cup \mathcal{B}_m|\),≥95% 为正确。三种提示策略:直接代码生成(DCG)、先推理后代码(RTC)、递归结构聚焦(RSF)。
实验关键数据¶
主实验¶
| 模型 | 可执行率 | 正确率(可执行中) | 端到端正确率 |
|---|---|---|---|
| GPT-4o (DCG) | 94.3% | 9.6% | 9.0% |
| Claude 3.7 Sonnet (DCG) | 82.0% | 9.0% | 7.4% |
| Gemini 2.5 Flash (DCG) | 23.8% | 48.3% | 11.5% |
| Qwen 2.5-VL (DCG) | 99.2% | 3.3% | 3.3% |
| 总计 | 76.1% | 5.5% | 4.2% |
| 分形类型 | 数学挑战 | 成功率范围 |
|---|---|---|
| Koch 曲线 | 几何变换 | 17-21% |
| Sierpiński 结构 | 多尺度自相似 | 3-18% |
| Cantor 集 | 线性递归 | 中等 |
| Dragon 曲线 | 空间填充 | 低 |
| Tree 分形 | 分支递归 | <2% |
消融实验(提示策略对比)¶
| 提示策略 | Claude | GPT-4o | Gemini | Qwen |
|---|---|---|---|---|
| DCG (直接) | 7.4% | 9.0% | 11.5% | 3.3% |
| RTC (先推理) | 2.5% | 1.6% | 3.3% | 4.9% |
| RSF (递归聚焦) | 3.3% | 2.5% | 0.8% | 0.0% |
关键发现¶
- 76% 可执行 vs 4% 正确:模型具有语法能力但缺乏语义理解——能生成合法 Python 但不能推断正确的生成规则
- Koch 最高 vs Tree 最低:模型能组合局部几何操作(旋转、缩放、平移)但无法处理分支递归(单父节点产生多个独立递归子节点),即使 Tree 的 IFS 定义只有 2 个映射是最简单的
- 直接生成显著优于推理优先:与 CoT 在逻辑推理中的优势相反,冗长的中间推理反而干扰了精确的视觉-代码合成,这是反直觉的发现
- Gemini 可执行率最低(23.8%)但条件正确率最高(48.3%),说明其更保守但更精确
亮点与洞察¶
- 精准的能力诊断:不同分形类型靶向不同推理层级,使"模型究竟缺什么能力"有了定量答案——是分支递归而非递归本身
- 反 CoT 发现:直接代码生成优于推理优先,揭示了精确空间/数值输出任务与高层逻辑推理任务在 prompting 策略上的本质差异
- Kolmogorov 复杂度视角:分析代码复杂度时发现"相变"现象——当模型识别出递归结构时代码长度急剧下降,从像素级描述转为压缩的算法表示
- 抗污染的参数化设计思路可迁移到其他 benchmark 设计中
局限性 / 可改进方向¶
- 每张图只做一次生成,未考虑模型随机性(best-of-N 可能更公平)
- 未评估推理专用模型(如 o1、DeepSeek-R1),它们可能在递归推理上有优势
- 95% IoU 阈值较严格,未提供更细粒度的结构感知指标(如分支数准确率、递归深度检测)
- 仅限分形这一特定领域,对更广泛的视觉-数学推理能力的推广性需谨慎看待
- prompting 分析是观察性的,缺乏控制变量实验证明因果关系
相关工作与启发¶
- vs TurtleBench: TurtleBench 问"能否画你看到的"(简单几何形状),FractalBench 问"能否推断生成有限观察的无限过程",难度层级完全不同
- vs MathVista/MATH-Vision: 这些基准测试数学知识的应用,FractalBench 测试数学规则的抽象——从视觉到符号的逆向过程
- vs GeoGramBench: GeoGramBench 发现结构复杂度增加时性能下降,FractalBench 进一步精确到"分支递归"是瓶颈
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用分形作为数学推理诊断工具的角度新颖且深刻,IFS 框架提供了坚实的数学基础
- 实验充分度: ⭐⭐⭐⭐ 4 个模型×3 种提示×12 种分形,分析深入;但缺少推理专用模型和 best-of-N
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构优美,从数学定义到实验分析一气呵成,insight 提炼精准
- 价值: ⭐⭐⭐⭐ 揭示了 MLLM 视觉-数学推理的根本短板,对理解模型能力边界有重要贡献
与相关工作的对比¶
- vs TurtleBench: TurtleBench 测试简单几何形状绘制(19% 准确率),是"画所见"任务;FractalBench 测试递归生成规则推断(4% 准确率),是"推断生成过程"任务,难度层级完全不同
- vs MathVista/MATH-Vision: 这些基准测试"应用数学知识解决视觉问题",FractalBench 测试"从视觉模式抽象数学规则"——前者是正向应用,后者是逆向推断
- vs GeoGramBench: GeoGramBench 发现结构复杂度增加时性能下降,FractalBench 进一步精确定位到分支递归是具体瓶颈,而非递归本身
- vs MATHGLANCE: MATHGLANCE 发现模型"不知道该看哪里",FractalBench 发现更深层的问题——即使看到了正确的模式,模型也无法推断其生成规则
启发与关联¶
- 抗污染的参数化设计(可调递归深度+颜色变体)是 benchmark 设计的通用范式,可应用于任何需要防止数据泄露的评估
- 反 CoT 发现对 prompting 研究有重要启示:精确空间/数值输出任务可能不适合先推理再输出的范式
- Kolmogorov 复杂度视角为分析模型是否真正理解结构(而非记忆模式)提供了新工具——代码长度作为结构理解的代理指标