Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models¶

日期: 2026-03-06
arXiv: 2603.06141
代码: 无
领域: 多模态/VLM
关键词: vision-language models, colour illusions, perception robustness, spatial colour mixing, human evaluation

一句话总结¶

提出空间颜色混合错觉作为 VLM 感知压力测试，发现 9 个 VLM 在 8 种颜色畸变下精度急剧下降，且扩大语言模型规模无法可靠缓解，而人类在相同条件下远优于模型。

研究背景与动机¶

领域现状: VLM 在标准 benchmark 上表现出色，但面对结构化像素扰动可能产生自信但荒谬的预测。已有少量工作用错觉评估 VLM，但存在数据泄露、格式混淆等问题。
现有痛点:
- 已有错觉 benchmark 多从网上抓取，可能被模型记忆
- 常见、知名错觉使评估退化为"识别错觉类型"而非"感知测试"
- 问题措辞和选项强约束假设空间，将感知问题变成语言问题
- 视觉提示可引入额外伪影改变任务本质
核心矛盾: 人类视觉和 VLM 在优化目标和信息处理机制上根本不同——人类视觉是主动推理过程，整合部分证据与先验知识；VLM 则最小化对比/一致性损失，可能对结构化颜色扰动缺乏鲁棒性。
切入角度: 使用空间颜色混合这一可程序化生成的颜色错觉家族，可控地改变畸变强度而不改变底层语义内容。
核心idea一句话: 用 8 种 RGB/Ostwald 颜色系统的空间混合变换做感知压力测试，量化 VLM 在像素值大幅改变但语义不变时的识别失败。

方法详解¶

整体框架¶

提出 8 种空间颜色混合错觉变换（5 种 RGB 系统 + 3 种 Ostwald 系统），每种可参数化畸变程度。在 4 个数据集上评估 9 个 VLM（3 个模型家族 × 3 个规模），并与 61 名人类参与者对比。

关键设计¶

RGB 系统变换（5 种）:
- SCMix-3A: 3 条 RGB 彩色条纹叠加灰度图
- SCMix-2: 2 条条纹（R+G 和 B）
- SCMix-3B: RGB 条纹长度与原色比例成正比
- SCMix-1: 单色条纹（颜色值取 patch 平均）
- SCMix-6: 6 条彩色条纹（RGBCYM）
Ostwald 系统变换（3 种）:
- Ostwald RGB: 垂直的黑、白、RGB 色线，三线亮度和等于原色
- Ostwald Checker: 网格中每块分为黑、白、色调三部分
- Ostwald Random: 类似 Checker 但黑白随机交替
- 每种可通过条纹宽度/网格尺寸控制畸变强度
人类启发预处理:
- 下采样再上采样（D/U）：模拟人类"退后观看"
- 箱式模糊：模拟人类"眯眼"
- 目的是移除高频条纹/网格模式，让全局形状线索更显著
工具使用测试:
- 使用 gpt-5-mini + code-interpreter 测试模型能否自动识别需要预处理
- 结果：提供工具不能提高性能，模型无法识别自身感知不可靠

损失函数 / 训练策略¶

无训练，纯评估研究
所有图像缩放至 360×360
使用精确匹配判断正确性

实验关键数据¶

主实验¶

9 个 VLM × 8 种错觉 × 4 个数据集，核心发现： - Animals 数据集（最简单）：原始接近满分，最低畸变度即降至 ~50% - 性能差异更多由模型家族而非规模决定（Gemma3 三个规模表现几乎一样） - 部分模型产生荒谬输出，如 Qwen3-VL-30B 回答"千里江山图"，gemma3-27B 拒绝回答称"图像高度像素化"

人类 vs. VLM 对比（Animals 数据集）¶

畸变类型	畸变度	人类准确率	VLM 聚合准确率	差距
SCMix-1	2	~90%	~50%	~40pp
SCMix-1	5	~85%	~35%	~50pp
SCMix-1	12	~75%	~20%	~55pp
Ostwald Checker	2	~88%	~55%	~33pp
Ostwald Checker	12	~70%	~15%	~55pp

61 名参与者，Fleiss Kappa \(\kappa = 0.748\)（高一致性）

预处理消融（gemma-3-12b, Animals）¶

8× D/U 因子在畸变度 10 时可提升 >30% 准确率（Ostwald Checker 和 SCMix-1）
但对多车道条纹模式（如 SCMix-3A）几乎无效

关键发现¶

规模无效: 增大语言模型不能可靠缓解感知脆弱性（Gemma3 三规模几乎一致）
家族效应: 性能差异更多由模型家族/视觉编码器决定（CLIP/SigLIP vs. DINOv3）
人机差距巨大: 人类在相同畸变下保持远高精度，且退化速度慢得多
编码器偏好: DINOv3 特征对畸变更敏感（余弦相似度随畸变下降），CLIP/SigLIP 相似度异常稳定且高
工具使用失败: gpt-5-mini + code-interpreter 不能自动识别感知不可靠性

亮点与洞察¶

程序化可控: 错觉可应用于任意图像，畸变强度连续可调，科学评估必备属性
深刻的感知差异揭示: 不仅量化了 VLM 弱点，还分析了视觉编码器层面的原因
实用启示: 简单预处理（降采样+模糊）可恢复部分性能 → 感知感知预处理和工具使用是提升 VLM 鲁棒性的实用方向
视觉编码器设计启示: 自监督 DINOv3 比语言对齐 CLIP/SigLIP 更能反映畸变程度 → 混合编码器设计可能更鲁棒

局限性 / 可改进方向¶

仅评估颜色类错觉，未覆盖几何/运动等其他感知维度
Animals 数据集提供多选选项，可能高估了基线性能
图像固定为 360×360 较小分辨率，不同分辨率可能影响结论
预处理策略简单（降采样/模糊），更复杂的自适应策略值得探索
未评估闭源最新大模型（如 GPT-5、Claude 4）在相同设置下的表现
人类实验仅在 Animals 数据集上进行，泛化性有待验证

评分¶

⭐⭐⭐⭐ 新颖性：空间颜色混合作为 VLM 感知测试是新颖且有价值的
⭐⭐⭐⭐ 有效性：9 个模型 × 4 数据集 × 8 种错觉 + 人类实验，评估全面系统
⭐⭐⭐⭐⭐ 洞察性：发现规模无效、编码器偏好、工具使用失败等深刻洞察
⭐⭐⭐⭐ 写作：动机清晰，实验设计严谨，图示丰富直观