TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶

会议: ICLR2026
arXiv: 2603.12133
代码: GitHub
领域: llm_reasoning
关键词: benchmark, topological reasoning, spatial reasoning, puzzle, error diagnosis, causal intervention

一句话总结¶

构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力，发现前沿模型hard tier仅解决<24%，并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。

背景与动机¶

LLM在代数/符号推理上表现强劲，但在需要维护全局空间不变量（连通性、闭环、对称性）的任务上能力不足
现有谜题/推理基准多测试局部模式匹配或单元格级运算，不要求跨网格的全局约束维护
拓扑约束在电路布局、路径规划、分子结构分析等实际应用中普遍存在
现有评估仅报告准确率，无法区分模型失败源于推理本身还是空间信息提取/表示的局限
需要将观察性错误分类与因果验证结合的诊断方法

方法¶

TopoBench基准: 6类谜题(FlowFree-路径连通, Bridges-网络连通, Loopy-闭环, Galaxies-旋转对称, Undead-反射可见性, Pattern-连续性)，每类3个难度(easy/medium/hard, 5×5→10×10)，900个实例，配专用验证器。

诊断流程: 1. 观察阶段: 用LLM-as-Judge(GPT-5-mini)标注750条CoT推理链，按11类错误分类 2. 因果干预阶段: 将4种错误模式注入部分金标准解题路径，测量下游准确率变化(每条件300题)

4种干预错误: RR(重复推理)、PC(过早承诺)、STF(状态追踪失败)、CF(约束遗忘)

缓解策略: cell-aligned网格表示、tool-augmented约束查询、提示级规划引导

实验¶

模型	Easy Avg	Medium Avg	Hard Avg
GPT-5-mini-high	0.71	0.44	0.24
Gemini-3-Flash	0.60	0.35	0.09
DeepSeek V3.2	0.58	0.37	0.10
Qwen3-235B	0.31	0.12	—
Qwen3-32B	0.07	—	—

关键发现: (1) Galaxies和Loopy在medium/hard上几乎所有模型准确率为0，全局不变量是最难的约束类型; (2) 约束遗忘(CF)仅在4%失败trace中出现，但注入后准确率下降~11pp，因果效应最大; (3) 重复推理(RR)在33%trace中出现，但注入后对准确率无显著影响——是搜索的良性副产品; (4) 工具增强提供结构化约束信息可提升Bridges hard 10%，但提供ASCII网格反而降低准确率; (5) 瓶颈在于从空间表示中提取约束，而非对约束进行推理。

亮点¶

错误频率≠因果影响的发现极具洞察力，挑战了常见假设
因果干预实验设计严谨：在金标准解题路径上注入控制变量
缓解策略实验区分了"空间表示解析"vs"约束推理"的瓶颈
6类谜题覆盖不同拓扑约束类型，设计全面

局限¶

仅在DeepSeek V3.2上做因果干预分析(其他模型不暴露完整CoT)
谜题虽控制良好但与真实工程任务有差距
ASCII文本输入限制了多模态模型的潜力（虽有初步探索）
hard tier大部分近零，区分度不足——可能需要更细粒度的难度梯度

评分¶

新颖性: ⭐⭐⭐⭐⭐ (因果干预+拓扑推理诊断组合独特)
实验充分度: ⭐⭐⭐⭐⭐ (9模型+6谜题+3难度+因果实验+缓解策略)
写作质量: ⭐⭐⭐⭐⭐ (结构清晰，分析深入)
价值: ⭐⭐⭐⭐ (揭示LLM空间推理的根本瓶颈)

TopoBench: Benchmarking LLMs on Hard Topological Reasoning¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限¶

相关工作¶

评分¶