跳转至

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

日期: 2026-03-06
arXiv: 2603.06141
代码: 无
领域: 多模态/VLM
关键词: vision-language models, colour illusions, perception robustness, spatial colour mixing, human evaluation

一句话总结

提出空间颜色混合错觉作为 VLM 感知压力测试,发现 9 个 VLM 在 8 种颜色畸变下精度急剧下降,且扩大语言模型规模无法可靠缓解,而人类在相同条件下远优于模型。

研究背景与动机

  1. 领域现状: VLM 在标准 benchmark 上表现出色,但面对结构化像素扰动可能产生自信但荒谬的预测。已有少量工作用错觉评估 VLM,但存在数据泄露、格式混淆等问题。
  2. 现有痛点:
    • 已有错觉 benchmark 多从网上抓取,可能被模型记忆
    • 常见、知名错觉使评估退化为"识别错觉类型"而非"感知测试"
    • 问题措辞和选项强约束假设空间,将感知问题变成语言问题
    • 视觉提示可引入额外伪影改变任务本质
  3. 核心矛盾: 人类视觉和 VLM 在优化目标和信息处理机制上根本不同——人类视觉是主动推理过程,整合部分证据与先验知识;VLM 则最小化对比/一致性损失,可能对结构化颜色扰动缺乏鲁棒性。
  4. 切入角度: 使用空间颜色混合这一可程序化生成的颜色错觉家族,可控地改变畸变强度而不改变底层语义内容。
  5. 核心idea一句话: 用 8 种 RGB/Ostwald 颜色系统的空间混合变换做感知压力测试,量化 VLM 在像素值大幅改变但语义不变时的识别失败。

方法详解

整体框架

提出 8 种空间颜色混合错觉变换(5 种 RGB 系统 + 3 种 Ostwald 系统),每种可参数化畸变程度。在 4 个数据集上评估 9 个 VLM(3 个模型家族 × 3 个规模),并与 61 名人类参与者对比。

关键设计

  1. RGB 系统变换(5 种):

    • SCMix-3A: 3 条 RGB 彩色条纹叠加灰度图
    • SCMix-2: 2 条条纹(R+G 和 B)
    • SCMix-3B: RGB 条纹长度与原色比例成正比
    • SCMix-1: 单色条纹(颜色值取 patch 平均)
    • SCMix-6: 6 条彩色条纹(RGBCYM)
  2. Ostwald 系统变换(3 种):

    • Ostwald RGB: 垂直的黑、白、RGB 色线,三线亮度和等于原色
    • Ostwald Checker: 网格中每块分为黑、白、色调三部分
    • Ostwald Random: 类似 Checker 但黑白随机交替
    • 每种可通过条纹宽度/网格尺寸控制畸变强度
  3. 人类启发预处理:

    • 下采样再上采样(D/U):模拟人类"退后观看"
    • 箱式模糊:模拟人类"眯眼"
    • 目的是移除高频条纹/网格模式,让全局形状线索更显著
  4. 工具使用测试:

    • 使用 gpt-5-mini + code-interpreter 测试模型能否自动识别需要预处理
    • 结果:提供工具不能提高性能,模型无法识别自身感知不可靠

损失函数 / 训练策略

  • 无训练,纯评估研究
  • 所有图像缩放至 360×360
  • 使用精确匹配判断正确性

实验关键数据

主实验

9 个 VLM × 8 种错觉 × 4 个数据集,核心发现: - Animals 数据集(最简单):原始接近满分,最低畸变度即降至 ~50% - 性能差异更多由模型家族而非规模决定(Gemma3 三个规模表现几乎一样) - 部分模型产生荒谬输出,如 Qwen3-VL-30B 回答"千里江山图",gemma3-27B 拒绝回答称"图像高度像素化"

人类 vs. VLM 对比(Animals 数据集)

畸变类型 畸变度 人类准确率 VLM 聚合准确率 差距
SCMix-1 2 ~90% ~50% ~40pp
SCMix-1 5 ~85% ~35% ~50pp
SCMix-1 12 ~75% ~20% ~55pp
Ostwald Checker 2 ~88% ~55% ~33pp
Ostwald Checker 12 ~70% ~15% ~55pp

61 名参与者,Fleiss Kappa \(\kappa = 0.748\)(高一致性)

预处理消融(gemma-3-12b, Animals)

  • 8× D/U 因子在畸变度 10 时可提升 >30% 准确率(Ostwald Checker 和 SCMix-1)
  • 但对多车道条纹模式(如 SCMix-3A)几乎无效

关键发现

  • 规模无效: 增大语言模型不能可靠缓解感知脆弱性(Gemma3 三规模几乎一致)
  • 家族效应: 性能差异更多由模型家族/视觉编码器决定(CLIP/SigLIP vs. DINOv3)
  • 人机差距巨大: 人类在相同畸变下保持远高精度,且退化速度慢得多
  • 编码器偏好: DINOv3 特征对畸变更敏感(余弦相似度随畸变下降),CLIP/SigLIP 相似度异常稳定且高
  • 工具使用失败: gpt-5-mini + code-interpreter 不能自动识别感知不可靠性

亮点与洞察

  • 程序化可控: 错觉可应用于任意图像,畸变强度连续可调,科学评估必备属性
  • 深刻的感知差异揭示: 不仅量化了 VLM 弱点,还分析了视觉编码器层面的原因
  • 实用启示: 简单预处理(降采样+模糊)可恢复部分性能 → 感知感知预处理和工具使用是提升 VLM 鲁棒性的实用方向
  • 视觉编码器设计启示: 自监督 DINOv3 比语言对齐 CLIP/SigLIP 更能反映畸变程度 → 混合编码器设计可能更鲁棒

局限性 / 可改进方向

  • 仅评估颜色类错觉,未覆盖几何/运动等其他感知维度
  • Animals 数据集提供多选选项,可能高估了基线性能
  • 图像固定为 360×360 较小分辨率,不同分辨率可能影响结论
  • 预处理策略简单(降采样/模糊),更复杂的自适应策略值得探索
  • 未评估闭源最新大模型(如 GPT-5、Claude 4)在相同设置下的表现
  • 人类实验仅在 Animals 数据集上进行,泛化性有待验证

相关工作与启发

  • GVIL (Zhang et al.): 16 种颜色和光学错觉 + QA,强调类人性而非感知准确性
  • IllusionVQA: 374 个认知错觉,网络抓取 + 多选,可能有记忆问题
  • RCID: 对比度/条纹/滤镜颜色错觉,关注颜色理解而非物体识别
  • Interface Theory of Perception (Hoffman et al.): 人类感知非世界真实反映而是进化健适度最大化
  • Gestalt Psychology: 完形感知原理解释人类为何能从不完整视觉恢复全局语义

评分

  • ⭐⭐⭐⭐ 新颖性:空间颜色混合作为 VLM 感知测试是新颖且有价值的
  • ⭐⭐⭐⭐ 有效性:9 个模型 × 4 数据集 × 8 种错觉 + 人类实验,评估全面系统
  • ⭐⭐⭐⭐⭐ 洞察性:发现规模无效、编码器偏好、工具使用失败等深刻洞察
  • ⭐⭐⭐⭐ 写作:动机清晰,实验设计严谨,图示丰富直观