SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions¶
日期: 2026-03-24
arXiv: 2603.23118
代码: 无
领域: 多模态/VLM / 视觉感知 / 鲁棒性
关键词: visual illusion, high-frequency bias, multi-scale perception, plug-and-play, MLLM robustness
一句话总结¶
发现 MLLM 在隐藏模式视觉错觉(如隐字画)上严重失败的根因是高频注意力偏置,提出 SMSP:通过 FFT 低通滤波(模拟眯眼)+ 空间缩放(模拟远距离观看)的即插即用感知调整策略,将 Qwen3-VL-8B 准确率从 13% 提升到 84%(+71%),无需任何重训练。
研究背景与动机¶
-
领域现状: MLLM 在标准视觉任务上表现优异,但对隐藏模式视觉错觉高度脆弱——这些模式对人类显而易见(99.5% 准确率)但模型几乎完全失败(平均 <15%)。
-
问题分析: 频域分析揭示根因——MLLM 的视觉编码器对高频成分过度响应(注意力 88.3% 在高频背景上),忽略了编码隐藏模式的低频大尺度信号。错觉图的中/高频能量是正常图的 3-5 倍。
-
核心矛盾: 这构成严重安全风险——恶意内容可伪装在错觉图中绕过 AI 审核系统,而人类能轻松看见。Fine-tuning 不是答案(在未见模式上仅 22.9% 准确率)。
-
核心 idea: 模拟人类感知策略——眯眼(低通滤波抑制高频)和远看(缩放强化低频大尺度模式),在感知层面解决问题而非改模型架构,零训练即插即用。
方法详解¶
整体框架¶
对输入图像生成 K=3 个多尺度感知变体(组合低通滤波+空间缩放),与原图一起送入 MLLM 做联合推理。无训练、无模型修改、即插即用。
关键设计¶
-
高频注意力偏置分析:
- 发现 MLLM 在错觉图上的注意力 88.3% 集中在高频背景而非低频隐藏模式
- FFT 分析确认错觉图的中/高频能量是正常图的 3-5 倍
- 这解释了为什么人类能看到但模型看不到——人类能动态调整注意尺度
-
感知模块:
- FFT 低通滤波:阈值 λ 去除高频背景纹理,模拟人类"眯眼"效果
- 空间缩放:下采样因子 s 缩小图像后白色填充到原始尺寸,模拟"远距离观看"
- 两者互补:滤波去频率噪声,缩放强化空间大尺度模式
-
多尺度策略:
- K 个变体用几何级数参数:\(\lambda_i=\lambda_1\cdot(\frac{\lambda_K}{\lambda_1})^{\frac{i-1}{K-1}}\),\(s_i=s_1\cdot(\frac{s_K}{s_1})^{\frac{i-1}{K-1}}\)
- K=3 是最优(覆盖大/中/小尺度隐藏模式)
- 输入元组:\(\text{I}_{\text{SMSP}}=(I, \tilde{I}_1, \tilde{I}_2, \tilde{I}_3)\)
-
IlluChar 数据集: 232+ 字符错觉(10 数字 + 52 英文字母 + 170 汉字),含噪声背景和语义背景两种类型,人类准确率 99.5%
实验关键数据¶
主实验¶
| 模型 | 原始准确率 | +SMSP 准确率 | 提升 |
|---|---|---|---|
| Qwen3-VL-8B | 13.0% | 84.0% | +71.0% |
| Qwen3-VL-235B | ~20% | 88.6% | 噪声型 |
| GPT-5.2 | 9.3% | 62.9% | +53.6% |
| Gemini-2.5 | 25.8% | 73.8% | +48.0% |
| Claude-Sonnet-4.5 | 1.2% | 58.6% | 语义型 |
| GLM-4.5V | 28.5% | 83.5% | +55.0% |
非字符错觉泛化¶
| 类别 | 原始 | +SMSP |
|---|---|---|
| 动物 | 34.0% | 97.5% |
| MNIST | 22.0% | 88.0% |
| 有害模式 | 4.3% | 71.0% |
消融实验¶
| 配置 | Geometry3K | PuzzleVQA |
|---|---|---|
| 去低通滤波 | 96.3% | 31.8% |
| 去空间缩放 | 95.5% | 42.8% |
| 完整 SMSP | 97.3% | 92.1% |
计算开销¶
- Token 数:1023→2949(K=3)
- 耗时:1.08s→1.43s(仅 1.32× 开销)
亮点与洞察¶
- 高频注意力偏置是 MLLM 在错觉任务上失败的核心机制——首次系统性分析并给出频域证据
- 感知层面的解决方案比架构修改更优雅——不改模型、零训练、即插即用
- 模拟人类"眯眼+远看"的策略竟然如此有效(+71%),说明 MLLM 的视觉编码器其实"看得到"隐藏模式,只是注意力分配被高频干扰
- 安全意义重大:恶意内容可以伪装在视觉错觉中绕过 AI 审核系统,SMSP 提供了即时可用的防御方案
- 有害模式识别从 4.3%→71.0%,在安全审核场景中有直接应用价值
局限性 / 可改进方向¶
- 感知参数(λ, s)预设固定,未能根据输入动态适配——理想情况应自动检测是否是错觉图并选取参数
- K=3 导致 token 数翻 3 倍,对大分辨率图像开销增加显著
- 仅在视觉错觉上验证,对标准视觉任务的影响(虽声称不降)需更大规模验证
- 微调方法泛化性很差(22.9% vs 77.9% 在未见模式上),说明训练不是正确方向,感知调整是更根本的解法
- 未探索与其他防御手段(如对抗训练、安全过滤器)的组合效果
相关工作与启发¶
- vs 对抗训练/微调: 微调在未见模式上仅 22.9%,SMSP 77.9%——说明感知调整比特征记忆更根本
- vs 输入增强方法: 类似多视图输入的思路,但 SMSP 有明确的频域理论基础,不是盲目增加视图
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义新颖,解决思路直觉而有效,频域分析扎实
- 实验充分度: ⭐⭐⭐⭐ 多模型×多错觉类型 + 频率/注意力分析 + 消融
- 写作质量: ⭐⭐⭐⭐ 分析到位,可视化丰富
- 价值: ⭐⭐⭐⭐ 对 MLLM 感知机制的理解有启发,对安全审核有实际意义