SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions¶

日期: 2026-03-24
arXiv: 2603.23118
代码: 无
领域: 多模态/VLM / 视觉感知 / 鲁棒性
关键词: visual illusion, high-frequency bias, multi-scale perception, plug-and-play, MLLM robustness

一句话总结¶

发现 MLLM 在隐藏模式视觉错觉（如隐字画）上严重失败的根因是高频注意力偏置，提出 SMSP：通过 FFT 低通滤波（模拟眯眼）+ 空间缩放（模拟远距离观看）的即插即用感知调整策略，将 Qwen3-VL-8B 准确率从 13% 提升到 84%（+71%），无需任何重训练。

研究背景与动机¶

领域现状: MLLM 在标准视觉任务上表现优异，但对隐藏模式视觉错觉高度脆弱——这些模式对人类显而易见（99.5% 准确率）但模型几乎完全失败（平均 <15%）。
问题分析: 频域分析揭示根因——MLLM 的视觉编码器对高频成分过度响应（注意力 88.3% 在高频背景上），忽略了编码隐藏模式的低频大尺度信号。错觉图的中/高频能量是正常图的 3-5 倍。
核心矛盾: 这构成严重安全风险——恶意内容可伪装在错觉图中绕过 AI 审核系统，而人类能轻松看见。Fine-tuning 不是答案（在未见模式上仅 22.9% 准确率）。
核心 idea: 模拟人类感知策略——眯眼（低通滤波抑制高频）和远看（缩放强化低频大尺度模式），在感知层面解决问题而非改模型架构，零训练即插即用。

方法详解¶

整体框架¶

对输入图像生成 K=3 个多尺度感知变体（组合低通滤波+空间缩放），与原图一起送入 MLLM 做联合推理。无训练、无模型修改、即插即用。

关键设计¶

高频注意力偏置分析:
- 发现 MLLM 在错觉图上的注意力 88.3% 集中在高频背景而非低频隐藏模式
- FFT 分析确认错觉图的中/高频能量是正常图的 3-5 倍
- 这解释了为什么人类能看到但模型看不到——人类能动态调整注意尺度
感知模块:
- FFT 低通滤波：阈值 λ 去除高频背景纹理，模拟人类"眯眼"效果
- 空间缩放：下采样因子 s 缩小图像后白色填充到原始尺寸，模拟"远距离观看"
- 两者互补：滤波去频率噪声，缩放强化空间大尺度模式
多尺度策略:
- K 个变体用几何级数参数：\(\lambda_i=\lambda_1\cdot(\frac{\lambda_K}{\lambda_1})^{\frac{i-1}{K-1}}\)，\(s_i=s_1\cdot(\frac{s_K}{s_1})^{\frac{i-1}{K-1}}\)
- K=3 是最优（覆盖大/中/小尺度隐藏模式）
- 输入元组：\(\text{I}_{\text{SMSP}}=(I, \tilde{I}_1, \tilde{I}_2, \tilde{I}_3)\)
IlluChar 数据集: 232+ 字符错觉（10 数字 + 52 英文字母 + 170 汉字），含噪声背景和语义背景两种类型，人类准确率 99.5%

实验关键数据¶

主实验¶

模型	原始准确率	+SMSP 准确率	提升
Qwen3-VL-8B	13.0%	84.0%	+71.0%
Qwen3-VL-235B	~20%	88.6%	噪声型
GPT-5.2	9.3%	62.9%	+53.6%
Gemini-2.5	25.8%	73.8%	+48.0%
Claude-Sonnet-4.5	1.2%	58.6%	语义型
GLM-4.5V	28.5%	83.5%	+55.0%

非字符错觉泛化¶

类别	原始	+SMSP
动物	34.0%	97.5%
MNIST	22.0%	88.0%
有害模式	4.3%	71.0%

消融实验¶

配置	Geometry3K	PuzzleVQA
去低通滤波	96.3%	31.8%
去空间缩放	95.5%	42.8%
完整 SMSP	97.3%	92.1%

计算开销¶

Token 数：1023→2949（K=3）
耗时：1.08s→1.43s（仅 1.32× 开销）

亮点与洞察¶

高频注意力偏置是 MLLM 在错觉任务上失败的核心机制——首次系统性分析并给出频域证据
感知层面的解决方案比架构修改更优雅——不改模型、零训练、即插即用
模拟人类"眯眼+远看"的策略竟然如此有效（+71%），说明 MLLM 的视觉编码器其实"看得到"隐藏模式，只是注意力分配被高频干扰
安全意义重大：恶意内容可以伪装在视觉错觉中绕过 AI 审核系统，SMSP 提供了即时可用的防御方案
有害模式识别从 4.3%→71.0%，在安全审核场景中有直接应用价值

局限性 / 可改进方向¶

感知参数（λ, s）预设固定，未能根据输入动态适配——理想情况应自动检测是否是错觉图并选取参数
K=3 导致 token 数翻 3 倍，对大分辨率图像开销增加显著
仅在视觉错觉上验证，对标准视觉任务的影响（虽声称不降）需更大规模验证
微调方法泛化性很差（22.9% vs 77.9% 在未见模式上），说明训练不是正确方向，感知调整是更根本的解法
未探索与其他防御手段（如对抗训练、安全过滤器）的组合效果

评分¶

新颖性: ⭐⭐⭐⭐ 问题定义新颖，解决思路直觉而有效，频域分析扎实
实验充分度: ⭐⭐⭐⭐ 多模型×多错觉类型 + 频率/注意力分析 + 消融
写作质量: ⭐⭐⭐⭐ 分析到位，可视化丰富
价值: ⭐⭐⭐⭐ 对 MLLM 感知机制的理解有启发，对安全审核有实际意义