FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis¶

会议: NeurIPS 2025
arXiv: 2511.06522
代码: https://github.com/NaiveNeuron/FractalBench
领域: multimodal_vlm
关键词: 分形, 视觉数学推理, 程序合成, MLLM评测, 递归抽象

一句话总结¶

提出 FractalBench，一个通过分形图像程序合成诊断 MLLM 视觉-数学推理能力的 benchmark：12 种经典分形、610 张测试图、4 个 MLLM，揭示 76% 的代码能执行但仅 4% 视觉正确，暴露了模型在递归抽象能力上的根本缺陷。

研究背景与动机¶

领域现状：MLLM 在多种视觉理解任务上表现出色，但对视觉-数学推理的评估尚不充分。TurtleBench 仅测试简单几何形状绘制（19% 准确率），MathVista/MATH-Vision 评估带视觉上下文的数学解题，MATHGLANCE 发现模型"不知道该看哪里"。
现有痛点：现有基准主要测试"将数学知识应用于视觉问题"，而非"从视觉模式中抽象数学规则"——即推断有限观察背后的无限生成过程。
核心矛盾：模型能否从自相似的视觉模式中推断出递归生成规则？这是数学发现的核心能力，但缺乏系统性的诊断基准。
本文要解决什么：提供一个靶向诊断工具，系统评估 MLLM 的尺度不变性识别、几何变换推断、递归结构抽象、组合推理和分支递归等层级能力。
切入角度：分形是理想测试对象——由 IFS（迭代函数系统）中少数几个压缩映射通过简单递归生成极其复杂的自相似模式，要求模型同时具备视觉感知和数学抽象能力。
核心idea一句话：用分形程序合成作为诊断探针，测试 MLLM 能否从图像推断递归生成规则，而非记忆模式。

方法详解¶

整体框架¶

FractalBench 包含 12 种经典分形（Cantor 集、Koch 曲线、Sierpiński 结构、Dragon 曲线、Tree 分形），610 张 1024×1024 测试图（4-12 层递归深度，变化颜色）。模型输入分形图像，需输出能再现该分形的 Python 代码（使用 MinimalTurtle 接口），在沙盒环境中执行后用 IoU 与 ground truth 比较。

关键设计¶

IFS 形式化分形定义:
做什么：为每种分形提供严格的数学定义
核心思路：每种分形是压缩映射 \(f_1, \ldots, f_m: \mathbb{R}^d \to \mathbb{R}^d\) 的 IFS 吸引子，即满足 \(K = \bigcup_{i=1}^m f_i(K)\) 的唯一紧集。如 Koch 曲线包含 4 个映射（缩放 \(1/3\) + 旋转 \(\pm 60°\) + 平移）
设计动机：IFS 提供了明确的 ground truth 生成规则，使评估有客观标准
MinimalTurtle 受限接口:
做什么：限制模型只能使用 4 条命令（move, turn, pen up/down）
核心思路：刻意限制 API 以隔离视觉到符号规则抽象能力——更丰富的 API（如 L-systems、matplotlib）会让模型通过模板回忆绕过数学推理
设计动机：类似形式语言评估中的最小语法测试，确保诊断的是推理能力而非 API 记忆
五层能力层级:
做什么：定义从简到难的推理要求层级
核心思路：(1) 尺度不变性识别→(2) 几何变换推断→(3) 递归结构抽象→(4) 组合推理→(5) 分支递归。每种分形类型靶向测试不同层级
设计动机：通过不同分形类型的成功率差异精确定位模型失败的具体能力层级
抗污染设计:
做什么：通过可参数化的递归深度和颜色变体防止记忆效应
核心思路：彩色变体防止模型依赖预训练时记住的经典黑色分形视觉嵌入
设计动机：确保测试的是真正的视觉-数学推理而非模式匹配

评估方法¶

使用 IoU（Jaccard Index）：\(\text{IoU} = |\mathcal{B}_a \cap \mathcal{B}_m| / |\mathcal{B}_a \cup \mathcal{B}_m|\)，≥95% 为正确。三种提示策略：直接代码生成（DCG）、先推理后代码（RTC）、递归结构聚焦（RSF）。

实验关键数据¶

主实验¶

模型	可执行率	正确率(可执行中)	端到端正确率
GPT-4o (DCG)	94.3%	9.6%	9.0%
Claude 3.7 Sonnet (DCG)	82.0%	9.0%	7.4%
Gemini 2.5 Flash (DCG)	23.8%	48.3%	11.5%
Qwen 2.5-VL (DCG)	99.2%	3.3%	3.3%
总计	76.1%	5.5%	4.2%

分形类型	数学挑战	成功率范围
Koch 曲线	几何变换	17-21%
Sierpiński 结构	多尺度自相似	3-18%
Cantor 集	线性递归	中等
Dragon 曲线	空间填充	低
Tree 分形	分支递归	<2%

消融实验（提示策略对比）¶

提示策略	Claude	GPT-4o	Gemini	Qwen
DCG (直接)	7.4%	9.0%	11.5%	3.3%
RTC (先推理)	2.5%	1.6%	3.3%	4.9%
RSF (递归聚焦)	3.3%	2.5%	0.8%	0.0%

关键发现¶

76% 可执行 vs 4% 正确：模型具有语法能力但缺乏语义理解——能生成合法 Python 但不能推断正确的生成规则
Koch 最高 vs Tree 最低：模型能组合局部几何操作（旋转、缩放、平移）但无法处理分支递归（单父节点产生多个独立递归子节点），即使 Tree 的 IFS 定义只有 2 个映射是最简单的
直接生成显著优于推理优先：与 CoT 在逻辑推理中的优势相反，冗长的中间推理反而干扰了精确的视觉-代码合成，这是反直觉的发现
Gemini 可执行率最低（23.8%）但条件正确率最高（48.3%），说明其更保守但更精确

亮点与洞察¶

精准的能力诊断：不同分形类型靶向不同推理层级，使"模型究竟缺什么能力"有了定量答案——是分支递归而非递归本身
反 CoT 发现：直接代码生成优于推理优先，揭示了精确空间/数值输出任务与高层逻辑推理任务在 prompting 策略上的本质差异
Kolmogorov 复杂度视角：分析代码复杂度时发现"相变"现象——当模型识别出递归结构时代码长度急剧下降，从像素级描述转为压缩的算法表示
抗污染的参数化设计思路可迁移到其他 benchmark 设计中

局限性 / 可改进方向¶

每张图只做一次生成，未考虑模型随机性（best-of-N 可能更公平）
未评估推理专用模型（如 o1、DeepSeek-R1），它们可能在递归推理上有优势
95% IoU 阈值较严格，未提供更细粒度的结构感知指标（如分支数准确率、递归深度检测）
仅限分形这一特定领域，对更广泛的视觉-数学推理能力的推广性需谨慎看待
prompting 分析是观察性的，缺乏控制变量实验证明因果关系

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用分形作为数学推理诊断工具的角度新颖且深刻，IFS 框架提供了坚实的数学基础
实验充分度: ⭐⭐⭐⭐ 4 个模型×3 种提示×12 种分形，分析深入；但缺少推理专用模型和 best-of-N
写作质量: ⭐⭐⭐⭐⭐ 论文结构优美，从数学定义到实验分析一气呵成，insight 提炼精准
价值: ⭐⭐⭐⭐ 揭示了 MLLM 视觉-数学推理的根本短板，对理解模型能力边界有重要贡献

与相关工作的对比¶

vs TurtleBench: TurtleBench 测试简单几何形状绘制（19% 准确率），是"画所见"任务；FractalBench 测试递归生成规则推断（4% 准确率），是"推断生成过程"任务，难度层级完全不同
vs MathVista/MATH-Vision: 这些基准测试"应用数学知识解决视觉问题"，FractalBench 测试"从视觉模式抽象数学规则"——前者是正向应用，后者是逆向推断
vs GeoGramBench: GeoGramBench 发现结构复杂度增加时性能下降，FractalBench 进一步精确定位到分支递归是具体瓶颈，而非递归本身
vs MATHGLANCE: MATHGLANCE 发现模型"不知道该看哪里"，FractalBench 发现更深层的问题——即使看到了正确的模式，模型也无法推断其生成规则

启发与关联¶

抗污染的参数化设计（可调递归深度+颜色变体）是 benchmark 设计的通用范式，可应用于任何需要防止数据泄露的评估
反 CoT 发现对 prompting 研究有重要启示：精确空间/数值输出任务可能不适合先推理再输出的范式
Kolmogorov 复杂度视角为分析模型是否真正理解结构（而非记忆模式）提供了新工具——代码长度作为结构理解的代理指标