跳转至

SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

日期: 2026-03-24
arXiv: 2603.23118
代码: 无
领域: 多模态/VLM / 视觉感知 / 鲁棒性
关键词: visual illusion, high-frequency bias, multi-scale perception, plug-and-play, MLLM robustness

一句话总结

发现 MLLM 在隐藏模式视觉错觉(如隐字画)上严重失败的根因是高频注意力偏置,提出 SMSP:通过 FFT 低通滤波(模拟眯眼)+ 空间缩放(模拟远距离观看)的即插即用感知调整策略,将 Qwen3-VL-8B 准确率从 13% 提升到 84%(+71%),无需任何重训练。

研究背景与动机

  1. 领域现状: MLLM 在标准视觉任务上表现优异,但对隐藏模式视觉错觉高度脆弱——这些模式对人类显而易见(99.5% 准确率)但模型几乎完全失败(平均 <15%)。

  2. 问题分析: 频域分析揭示根因——MLLM 的视觉编码器对高频成分过度响应(注意力 88.3% 在高频背景上),忽略了编码隐藏模式的低频大尺度信号。错觉图的中/高频能量是正常图的 3-5 倍。

  3. 核心矛盾: 这构成严重安全风险——恶意内容可伪装在错觉图中绕过 AI 审核系统,而人类能轻松看见。Fine-tuning 不是答案(在未见模式上仅 22.9% 准确率)。

  4. 核心 idea: 模拟人类感知策略——眯眼(低通滤波抑制高频)和远看(缩放强化低频大尺度模式),在感知层面解决问题而非改模型架构,零训练即插即用。

方法详解

整体框架

对输入图像生成 K=3 个多尺度感知变体(组合低通滤波+空间缩放),与原图一起送入 MLLM 做联合推理。无训练、无模型修改、即插即用。

关键设计

  1. 高频注意力偏置分析:

    • 发现 MLLM 在错觉图上的注意力 88.3% 集中在高频背景而非低频隐藏模式
    • FFT 分析确认错觉图的中/高频能量是正常图的 3-5 倍
    • 这解释了为什么人类能看到但模型看不到——人类能动态调整注意尺度
  2. 感知模块:

    • FFT 低通滤波:阈值 λ 去除高频背景纹理,模拟人类"眯眼"效果
    • 空间缩放:下采样因子 s 缩小图像后白色填充到原始尺寸,模拟"远距离观看"
    • 两者互补:滤波去频率噪声,缩放强化空间大尺度模式
  3. 多尺度策略:

    • K 个变体用几何级数参数:\(\lambda_i=\lambda_1\cdot(\frac{\lambda_K}{\lambda_1})^{\frac{i-1}{K-1}}\)\(s_i=s_1\cdot(\frac{s_K}{s_1})^{\frac{i-1}{K-1}}\)
    • K=3 是最优(覆盖大/中/小尺度隐藏模式)
    • 输入元组:\(\text{I}_{\text{SMSP}}=(I, \tilde{I}_1, \tilde{I}_2, \tilde{I}_3)\)
  4. IlluChar 数据集: 232+ 字符错觉(10 数字 + 52 英文字母 + 170 汉字),含噪声背景和语义背景两种类型,人类准确率 99.5%

实验关键数据

主实验

模型 原始准确率 +SMSP 准确率 提升
Qwen3-VL-8B 13.0% 84.0% +71.0%
Qwen3-VL-235B ~20% 88.6% 噪声型
GPT-5.2 9.3% 62.9% +53.6%
Gemini-2.5 25.8% 73.8% +48.0%
Claude-Sonnet-4.5 1.2% 58.6% 语义型
GLM-4.5V 28.5% 83.5% +55.0%

非字符错觉泛化

类别 原始 +SMSP
动物 34.0% 97.5%
MNIST 22.0% 88.0%
有害模式 4.3% 71.0%

消融实验

配置 Geometry3K PuzzleVQA
去低通滤波 96.3% 31.8%
去空间缩放 95.5% 42.8%
完整 SMSP 97.3% 92.1%

计算开销

  • Token 数:1023→2949(K=3)
  • 耗时:1.08s→1.43s(仅 1.32× 开销)

亮点与洞察

  • 高频注意力偏置是 MLLM 在错觉任务上失败的核心机制——首次系统性分析并给出频域证据
  • 感知层面的解决方案比架构修改更优雅——不改模型、零训练、即插即用
  • 模拟人类"眯眼+远看"的策略竟然如此有效(+71%),说明 MLLM 的视觉编码器其实"看得到"隐藏模式,只是注意力分配被高频干扰
  • 安全意义重大:恶意内容可以伪装在视觉错觉中绕过 AI 审核系统,SMSP 提供了即时可用的防御方案
  • 有害模式识别从 4.3%→71.0%,在安全审核场景中有直接应用价值

局限性 / 可改进方向

  • 感知参数(λ, s)预设固定,未能根据输入动态适配——理想情况应自动检测是否是错觉图并选取参数
  • K=3 导致 token 数翻 3 倍,对大分辨率图像开销增加显著
  • 仅在视觉错觉上验证,对标准视觉任务的影响(虽声称不降)需更大规模验证
  • 微调方法泛化性很差(22.9% vs 77.9% 在未见模式上),说明训练不是正确方向,感知调整是更根本的解法
  • 未探索与其他防御手段(如对抗训练、安全过滤器)的组合效果

相关工作与启发

  • vs 对抗训练/微调: 微调在未见模式上仅 22.9%,SMSP 77.9%——说明感知调整比特征记忆更根本
  • vs 输入增强方法: 类似多视图输入的思路,但 SMSP 有明确的频域理论基础,不是盲目增加视图

评分

  • 新颖性: ⭐⭐⭐⭐ 问题定义新颖,解决思路直觉而有效,频域分析扎实
  • 实验充分度: ⭐⭐⭐⭐ 多模型×多错觉类型 + 频率/注意力分析 + 消融
  • 写作质量: ⭐⭐⭐⭐ 分析到位,可视化丰富
  • 价值: ⭐⭐⭐⭐ 对 MLLM 感知机制的理解有启发,对安全审核有实际意义