AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?¶

会议: ICCV 2025
arXiv: 2412.03002
代码: 无公开（含MM3DTBench基准）
领域: AI安全 / 多模态VLM / 3D鲁棒性
关键词: VLM鲁棒性, 对抗3D变换, 单目姿态操作, 自然度奖励模型, 视觉定位

一句话总结¶

提出AdvDreamer框架从单张图像生成物理可复现的对抗性3D变换(Adv-3DT)样本，通过零样本单目姿态操作+自然度奖励模型+逆语义概率损失，揭示当前VLM（包括GPT-4o）在3D变化下性能下降高达50-80%，并建立首个3D变化鲁棒性VQA基准MM3DTBench。

VLM在2D对抗扰动、风格变化等方面的鲁棒性已被研究，但真实世界中最常见的变化是3D变化（物体旋转、平移、缩放），这一关键挑战几乎未被系统探索。现有3D鲁棒性评估依赖3D资产或稠密多视角，无法从单张自然图像出发。

三个挑战：(1)如何在有限先验（仅单视图）下精确表征3D变化？(2)如何确保最坏情况样本的视觉质量，使性能下降确实来自3D变化而非图像退化？(3)如何使对抗样本跨任务/跨架构通用？

单张自然图像 → 前景-背景分割（Grounded-SAM）→ LRM重建3D → 采样3D变换参数Θ → 渲染变换后前景 → 扩散模型合成到背景 → NRM评估自然度 + ISP损失评估攻击力 → CMA-ES优化变换分布p*(Θ)

零样本单目姿态操作(MPM): Grounded-SAM分割前景 → TripoSR单视图3D重建 → 指定Θ=(α,β,γ,Δx,Δy,s)旋转/平移/缩放 → 扩散模型重合成到原背景。无需多视图或3D资产。
自然度奖励模型(NRM): DINOv2提取视觉特征 → 双流MLP预测视觉保真度和物理合理性评分。训练数据：120K样本用GPT-4o自动标注+人工校验。确保对抗优化不收敛到不自然的伪最优区域。
逆语义概率损失(ISP): 仅操作视觉编码器的图像-文本对齐空间，最小化正确语义属性的匹配概率。架构无关（只用视觉编码器）、任务无关（在基础对齐空间操作），确保跨VLM可迁移性。

模型	Clean准确率	Adv-3DT准确率	下降
OpenCLIP ViT-B/16	98.0%	54.0%	-44%
OpenCLIP ViT-G/14	96.4%	53.5%	-43%
BLIP-2 ViT-G/14	81.0%	49.1%	-32%

场景	自然图像准确率	物理复现Adv-3DT准确率
零样本分类	100%	51.3%
VQA (Acc.1)	83.3%	33.6%