Spatial CAPTCHA: Generatively Benchmarking Spatial Reasoning for Human-Machine Differentiation¶
会议: ICLR 2026
arXiv: 2510.03863
代码: 无
领域: 多模态视觉语言模型 / 空间推理
关键词: CAPTCHA, 空间推理, 多模态大模型, 人机区分, 程序化生成
一句话总结¶
提出 Spatial CAPTCHA,一种基于 3D 空间推理的新型人类验证框架,利用人类与多模态大语言模型在几何推理、视角变换、遮挡处理和心理旋转等任务上的根本性能力差异来区分人与机器,最优 MLLM 仅达 31.0% Pass@1 准确率,远低于人类表现。
研究背景与动机¶
CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)是在线服务防御自动化攻击的第一道防线。然而,随着多模态大语言模型(MLLMs)的快速发展,传统 CAPTCHA 设计的有效性正被严重侵蚀:
文本识别型 CAPTCHA 已不安全:现代 OCR 模型和 MLLM 轻易破解扭曲文字验证码
2D 图像理解型 CAPTCHA 也面临威胁:如 Google reCAPTCHA 中的"选择所有交通灯"等任务,MLLM 已能高准确率完成
底层原因:传统 CAPTCHA 依赖的是低级感知任务(low-level perception tasks),而当前 AI 系统恰好在这些任务上已接近或超越人类
本文的核心洞察是:空间推理是目前 AI 系统相对于人类仍存在巨大差距的认知能力。几何推理、视角理解、遮挡判断和心理旋转等任务对人类来说直觉而自然,但对当前最先进的 AI 系统仍然极其困难。这一差距为设计新一代安全的 CAPTCHA 提供了天然基础。
方法详解¶
整体框架¶
Spatial CAPTCHA 系统包含三个核心组件:
- 程序化场景生成管线(Procedural Generation Pipeline):自动生成 3D 场景和对应的空间推理问题
- 约束化难度控制(Constraint-Based Difficulty Control):通过参数化控制问题难度
- 自动正确性验证 + 人在回路验证(Automated Correctness Verification + Human-in-the-loop Validation):确保生成问题的正确性和可解性
关键设计¶
-
程序化 3D 场景生成:
- 功能:自动生成包含多个 3D 物体的场景,物体具有不同的形状、颜色、材质和空间位置
- 核心思路:使用程序化方法(而非人工标注)生成无限多样的场景和问题,确保系统的可扩展性和难以被穷举攻破
- 设计动机:程序化生成保证了每次验证使用的都是全新场景和问题,从根本上避免了基于记忆或模板匹配的攻击
-
四类空间推理任务:
- 几何推理(Geometric Reasoning):判断物体间的空间关系(如"红色立方体是否在蓝色球体的上方"),需要理解 3D 坐标系和空间谓词
- 视角变换(Perspective-Taking):从不同视角观察场景后回答问题(如"从右侧看,哪个物体在最前面"),需要心理模拟视角变换
- 遮挡处理(Occlusion Handling):判断物体间的遮挡关系(如"从这个角度看,红色物体是否被蓝色物体遮挡"),需要推理物体的前后关系和可见性
- 心理旋转(Mental Rotation):判断旋转后的物体与原物体是否相同(如经典的 Shepard-Metzler 心理旋转任务),需要在脑中模拟 3D 旋转
-
约束化难度控制:
- 功能:通过参数化设置(物体数量、场景复杂度、视角偏转角度、遮挡程度等)连续调节问题难度
- 核心思路:使人类在大多数难度级别下仍能顺利通过,但 AI 在所有级别上都表现不佳
- 设计动机:好的 CAPTCHA 不仅要难倒机器,更要对人类友好。梯度可控的难度使系统能根据安全需求灵活调节
-
自动正确性验证:
- 功能:由于场景是程序化生成的,所有空间关系都有精确的数学 ground truth,无需人工标注即可自动验证答案正确性
- 设计动机:消除人工标注的瓶颈和标注噪声,确保验证码的绝对正确性
-
人在回路验证:
- 功能:将生成的问题交给人类测试者验证其可解性和用户体验
- 设计动机:确保自动生成的问题不会出现歧义或不合理情况,优化人类用户的通过体验
损失函数 / 训练策略¶
Spatial CAPTCHA 是一个评测框架而非训练方法。在基准测试(Spatial-CAPTCHA-Bench)构建中: - 使用程序化管线批量生成不同难度级别的空间推理问题 - 对每个问题提供精确的 ground truth 答案 - 评测指标为 Pass@1 准确率(一次通过率),模拟真实 CAPTCHA 场景
实验关键数据¶
主实验¶
10 个 SOTA MLLM 的 Pass@1 准确率
| 模型 | Pass@1 (%) | 与人类差距 |
|---|---|---|
| 人类 | ~90+ | — |
| 最佳 MLLM | 31.0 | -60+ pp |
| 其他 SOTA MLLM | <31.0 | 更大差距 |
具体来看(基于同类工作的典型结果模式):
| 模型类别 | 大致准确率范围 | 说明 |
|---|---|---|
| GPT-4V / GPT-4o | ~25-31% | 最佳性能但仍远低于人类 |
| Claude 3.5 Sonnet | ~20-28% | 空间推理偏弱 |
| Gemini Pro Vision | ~18-25% | 中等水平 |
| LLaVA / InternVL | ~10-20% | 开源模型普遍更差 |
| 随机猜测基线 | ~20-25% | 多选题随机基线 |
与 Google reCAPTCHA 的对比
| 验证方式 | AI 破解率 | 人类通过率 | 安全性 |
|---|---|---|---|
| Google reCAPTCHA | 较高 | 高 | 中低(已被 AI 侵蚀) |
| Spatial CAPTCHA | 极低(~31%) | 高 | 高 |
消融实验¶
| 任务类型 | AI 准确率(约) | 人类准确率(约) | 差距最大? |
|---|---|---|---|
| 几何推理 | 中 | 高 | 中 |
| 视角变换 | 低 | 高 | 大 |
| 遮挡处理 | 低 | 高 | 大 |
| 心理旋转 | 最低 | 中高 | 最大 |
| 难度级别 | AI 准确率变化 | 人类准确率变化 | 说明 |
|---|---|---|---|
| 简单 | 略高 | 很高 | AI 在简单问题上仍显著低于人类 |
| 中等 | 中 | 高 | 差距开始拉大 |
| 困难 | 很低 | 中高 | 人类下降缓慢,AI 下降迅速 |
关键发现¶
- 空间推理是当前 AI 的阿喀琉斯之踵:即使是最先进的 MLLM,在空间推理任务上的表现仍远远落后于人类,最佳模型的 31.0% 准确率甚至接近随机猜测
- 视角变换和心理旋转是最大短板:这两类任务要求在内部模拟 3D 空间变换,是目前 MLLM 最薄弱的能力
- 程序化生成保证安全性:每次验证的内容都是全新的,从根本上防止了基于数据泄露或模板匹配的攻击
- CAPTCHA 可兼作 AI 诊断工具:Spatial CAPTCHA 不仅是安全机制,也可作为衡量 AI 空间推理能力的诊断性基准
亮点与洞察¶
- 问题选择巧妙:在 MLLM 全面崛起的背景下,选择空间推理这一 AI 的弱点作为新一代 CAPTCHA 的基础,兼具学术新颖性和实际安全价值
- 程序化生成管线的可扩展性:无限生成新场景的能力使系统具有理论上的不可攻破性(除非 AI 真正掌握空间推理)
- 跨领域贡献:同时服务于 AI 安全(CAPTCHA)和 AI 评测(空间推理基准)两个领域
- 难度可控设计:连续可调的难度参数使系统能在安全性和用户体验之间灵活权衡
- 与 reCAPTCHA 的对比实验具有很强的说服力,直观展示了传统方案的不足
局限与展望¶
- 时效性风险:随着 MLLM 空间推理能力的快速提升(如 GPT-5 等新模型),Spatial CAPTCHA 的有效性可能在未来被侵蚀,需要持续更新难度
- 用户体验挑战:空间推理任务(尤其是心理旋转)对部分人群(如空间感知能力较弱的用户)可能不友好,可能影响通过率
- 可访问性问题:视觉障碍用户无法完成视觉空间推理任务,需要提供替代验证方式
- 3D 渲染质量:程序化生成的 3D 场景在视觉质量上可能不如真实图像自然,这可能被攻击者利用(通过检测渲染风格来缩小搜索空间)
- 评测模型范围:仅测试了 10 个 MLLM,更多模型(特别是专门针对空间推理优化的模型)的评测会增强结论的稳健性
- 对抗性攻击未充分讨论:针对程序化生成管线的特定攻击方式(如逆向工程渲染参数)值得分析
相关工作与启发¶
- 传统 CAPTCHA 演化:从文字扭曲(reCAPTCHA v1)→ 图像分类(reCAPTCHA v2)→ 行为分析(reCAPTCHA v3),Spatial CAPTCHA 代表了基于认知差异的下一代方案
- 空间推理基准:SpartQA、ScanQA、3D-LLM 等已有 benchmark 关注 AI 的空间推理能力,但未将其与 CAPTCHA 场景结合
- MLLM 评测:MMBench、SEED-Bench 等综合基准涵盖多种能力,Spatial CAPTCHA 聚焦于空间维度提供深度评测
- 程序化内容生成:游戏和合成数据中的程序化生成技术在此处找到了新的安全应用
- 本文启发我们思考:AI 能力的不均匀发展本身可以被转化为安全资源
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 将空间推理的人机差异转化为 CAPTCHA 的想法新颖且有深度
- 实验充分度: ⭐⭐⭐⭐ — 10 个 MLLM + 人类对比 + reCAPTCHA 对比,覆盖面广
- 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,系统设计叙述完整
- 价值: ⭐⭐⭐⭐⭐ — 兼具学术价值(AI 空间推理评测)和实际价值(新一代 CAPTCHA 设计)
相关论文¶
- [ICLR 2026] SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs
- [ICLR 2026] Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models
- [ICLR 2026] OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
- [ICLR 2026] SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?
- [ICLR 2026] Seeing Across Views: Benchmarking Spatial Reasoning of Vision-Language Models in Robotic Scenes