跳转至

FractalBench: Diagnosing Visual-Mathematical Reasoning Through Recursive Program Synthesis

会议: NeurIPS 2025
arXiv: 2511.06522
代码: https://github.com/NaiveNeuron/FractalBench
领域: multimodal_vlm
关键词: 分形, 视觉数学推理, 程序合成, MLLM评测, 递归抽象

一句话总结

提出 FractalBench,一个通过分形图像程序合成诊断 MLLM 视觉-数学推理能力的 benchmark:12 种经典分形、610 张测试图、4 个 MLLM,揭示 76% 的代码能执行但仅 4% 视觉正确,暴露了模型在递归抽象能力上的根本缺陷。

研究背景与动机

  1. 领域现状:MLLM 在多种视觉理解任务上表现出色,但对视觉-数学推理的评估尚不充分。TurtleBench 仅测试简单几何形状绘制(19% 准确率),MathVista/MATH-Vision 评估带视觉上下文的数学解题,MATHGLANCE 发现模型"不知道该看哪里"。
  2. 现有痛点:现有基准主要测试"将数学知识应用于视觉问题",而非"从视觉模式中抽象数学规则"——即推断有限观察背后的无限生成过程。
  3. 核心矛盾:模型能否从自相似的视觉模式中推断出递归生成规则?这是数学发现的核心能力,但缺乏系统性的诊断基准。
  4. 本文要解决什么:提供一个靶向诊断工具,系统评估 MLLM 的尺度不变性识别、几何变换推断、递归结构抽象、组合推理和分支递归等层级能力。
  5. 切入角度:分形是理想测试对象——由 IFS(迭代函数系统)中少数几个压缩映射通过简单递归生成极其复杂的自相似模式,要求模型同时具备视觉感知和数学抽象能力。
  6. 核心idea一句话:用分形程序合成作为诊断探针,测试 MLLM 能否从图像推断递归生成规则,而非记忆模式。

方法详解

整体框架

FractalBench 包含 12 种经典分形(Cantor 集、Koch 曲线、Sierpiński 结构、Dragon 曲线、Tree 分形),610 张 1024×1024 测试图(4-12 层递归深度,变化颜色)。模型输入分形图像,需输出能再现该分形的 Python 代码(使用 MinimalTurtle 接口),在沙盒环境中执行后用 IoU 与 ground truth 比较。

关键设计

  1. IFS 形式化分形定义:
  2. 做什么:为每种分形提供严格的数学定义
  3. 核心思路:每种分形是压缩映射 \(f_1, \ldots, f_m: \mathbb{R}^d \to \mathbb{R}^d\) 的 IFS 吸引子,即满足 \(K = \bigcup_{i=1}^m f_i(K)\) 的唯一紧集。如 Koch 曲线包含 4 个映射(缩放 \(1/3\) + 旋转 \(\pm 60°\) + 平移)
  4. 设计动机:IFS 提供了明确的 ground truth 生成规则,使评估有客观标准

  5. MinimalTurtle 受限接口:

  6. 做什么:限制模型只能使用 4 条命令(move, turn, pen up/down)
  7. 核心思路:刻意限制 API 以隔离视觉到符号规则抽象能力——更丰富的 API(如 L-systems、matplotlib)会让模型通过模板回忆绕过数学推理
  8. 设计动机:类似形式语言评估中的最小语法测试,确保诊断的是推理能力而非 API 记忆

  9. 五层能力层级:

  10. 做什么:定义从简到难的推理要求层级
  11. 核心思路:(1) 尺度不变性识别→(2) 几何变换推断→(3) 递归结构抽象→(4) 组合推理→(5) 分支递归。每种分形类型靶向测试不同层级
  12. 设计动机:通过不同分形类型的成功率差异精确定位模型失败的具体能力层级

  13. 抗污染设计:

  14. 做什么:通过可参数化的递归深度和颜色变体防止记忆效应
  15. 核心思路:彩色变体防止模型依赖预训练时记住的经典黑色分形视觉嵌入
  16. 设计动机:确保测试的是真正的视觉-数学推理而非模式匹配

评估方法

使用 IoU(Jaccard Index):\(\text{IoU} = |\mathcal{B}_a \cap \mathcal{B}_m| / |\mathcal{B}_a \cup \mathcal{B}_m|\),≥95% 为正确。三种提示策略:直接代码生成(DCG)、先推理后代码(RTC)、递归结构聚焦(RSF)。

实验关键数据

主实验

模型 可执行率 正确率(可执行中) 端到端正确率
GPT-4o (DCG) 94.3% 9.6% 9.0%
Claude 3.7 Sonnet (DCG) 82.0% 9.0% 7.4%
Gemini 2.5 Flash (DCG) 23.8% 48.3% 11.5%
Qwen 2.5-VL (DCG) 99.2% 3.3% 3.3%
总计 76.1% 5.5% 4.2%
分形类型 数学挑战 成功率范围
Koch 曲线 几何变换 17-21%
Sierpiński 结构 多尺度自相似 3-18%
Cantor 集 线性递归 中等
Dragon 曲线 空间填充
Tree 分形 分支递归 <2%

消融实验(提示策略对比)

提示策略 Claude GPT-4o Gemini Qwen
DCG (直接) 7.4% 9.0% 11.5% 3.3%
RTC (先推理) 2.5% 1.6% 3.3% 4.9%
RSF (递归聚焦) 3.3% 2.5% 0.8% 0.0%

关键发现

  • 76% 可执行 vs 4% 正确:模型具有语法能力但缺乏语义理解——能生成合法 Python 但不能推断正确的生成规则
  • Koch 最高 vs Tree 最低:模型能组合局部几何操作(旋转、缩放、平移)但无法处理分支递归(单父节点产生多个独立递归子节点),即使 Tree 的 IFS 定义只有 2 个映射是最简单的
  • 直接生成显著优于推理优先:与 CoT 在逻辑推理中的优势相反,冗长的中间推理反而干扰了精确的视觉-代码合成,这是反直觉的发现
  • Gemini 可执行率最低(23.8%)但条件正确率最高(48.3%),说明其更保守但更精确

亮点与洞察

  • 精准的能力诊断:不同分形类型靶向不同推理层级,使"模型究竟缺什么能力"有了定量答案——是分支递归而非递归本身
  • 反 CoT 发现:直接代码生成优于推理优先,揭示了精确空间/数值输出任务与高层逻辑推理任务在 prompting 策略上的本质差异
  • Kolmogorov 复杂度视角:分析代码复杂度时发现"相变"现象——当模型识别出递归结构时代码长度急剧下降,从像素级描述转为压缩的算法表示
  • 抗污染的参数化设计思路可迁移到其他 benchmark 设计中

局限性 / 可改进方向

  • 每张图只做一次生成,未考虑模型随机性(best-of-N 可能更公平)
  • 未评估推理专用模型(如 o1、DeepSeek-R1),它们可能在递归推理上有优势
  • 95% IoU 阈值较严格,未提供更细粒度的结构感知指标(如分支数准确率、递归深度检测)
  • 仅限分形这一特定领域,对更广泛的视觉-数学推理能力的推广性需谨慎看待
  • prompting 分析是观察性的,缺乏控制变量实验证明因果关系

相关工作与启发

  • vs TurtleBench: TurtleBench 问"能否画你看到的"(简单几何形状),FractalBench 问"能否推断生成有限观察的无限过程",难度层级完全不同
  • vs MathVista/MATH-Vision: 这些基准测试数学知识的应用,FractalBench 测试数学规则的抽象——从视觉到符号的逆向过程
  • vs GeoGramBench: GeoGramBench 发现结构复杂度增加时性能下降,FractalBench 进一步精确到"分支递归"是瓶颈

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用分形作为数学推理诊断工具的角度新颖且深刻,IFS 框架提供了坚实的数学基础
  • 实验充分度: ⭐⭐⭐⭐ 4 个模型×3 种提示×12 种分形,分析深入;但缺少推理专用模型和 best-of-N
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构优美,从数学定义到实验分析一气呵成,insight 提炼精准
  • 价值: ⭐⭐⭐⭐ 揭示了 MLLM 视觉-数学推理的根本短板,对理解模型能力边界有重要贡献

与相关工作的对比

  • vs TurtleBench: TurtleBench 测试简单几何形状绘制(19% 准确率),是"画所见"任务;FractalBench 测试递归生成规则推断(4% 准确率),是"推断生成过程"任务,难度层级完全不同
  • vs MathVista/MATH-Vision: 这些基准测试"应用数学知识解决视觉问题",FractalBench 测试"从视觉模式抽象数学规则"——前者是正向应用,后者是逆向推断
  • vs GeoGramBench: GeoGramBench 发现结构复杂度增加时性能下降,FractalBench 进一步精确定位到分支递归是具体瓶颈,而非递归本身
  • vs MATHGLANCE: MATHGLANCE 发现模型"不知道该看哪里",FractalBench 发现更深层的问题——即使看到了正确的模式,模型也无法推断其生成规则

启发与关联

  • 抗污染的参数化设计(可调递归深度+颜色变体)是 benchmark 设计的通用范式,可应用于任何需要防止数据泄露的评估
  • 反 CoT 发现对 prompting 研究有重要启示:精确空间/数值输出任务可能不适合先推理再输出的范式
  • Kolmogorov 复杂度视角为分析模型是否真正理解结构(而非记忆模式)提供了新工具——代码长度作为结构理解的代理指标