Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks¶

会议: CVPR 2026
arXiv: 2508.04097
代码: https://ngoc-nguyen-0.github.io/SMI_AW/ (有)
领域: 多模态VLM / AI安全
关键词: 模型反转攻击, VLM隐私泄露, 自适应token加权, 视觉注意力引导, 训练数据重建

一句话总结¶

首次系统研究 VLM 的模型反转（Model Inversion）攻击，提出一套面向 token 生成特性的反转策略（TMI/TMI-C/SMI），以及基于视觉注意力强度动态加权 token 梯度贡献的 SMI-AW 方法，在 4 种 VLM 和 3 个数据集上实现最高 61.21% 的人类评估攻击准确率，揭示了 VLM 严重的训练数据隐私泄露风险。

背景与动机¶

模型反转（MI）攻击旨在从训练好的模型中重建私有训练数据，已在单模态 DNN（尤其是人脸识别）中被广泛研究。然而 VLM 有以下独特之处导致传统 MI 不能直接适用：

VLM 的输出是 token 序列而非类别标签，需要新的反转目标函数
VLM 包含多个模块（视觉编码器、投影层、语言模型），且视觉编码器通常冻结——私有信息主要嵌入在语言模型和投影层参数中
不同输出 token 对视觉输入的依赖程度不同——有些 token 强视觉关联，有些仅由语言上下文驱动

随着 VLM 在医疗、金融等敏感领域部署，理解其隐私风险迫在眉睫。

核心问题¶

VLM 是否和单模态 DNN 一样容易受到模型反转攻击？如何针对 VLM 的 token 生成特性设计有效的 MI 攻击方法？

方法详解¶

整体框架¶

白盒攻击设定：攻击者拥有 VLM 的完整架构、参数和注意力图。给定文本输入 \(t\)（如"Who is the person in the image?"）和目标答案 \(y\)（如人名），在预训练 StyleGAN2 的潜空间中优化 \(w\)，使 \(x = G(w)\) 能使 VLM 输出 \(y\)。

关键设计¶

Token-based MI (TMI): 逐 token 更新——对序列中每个 token \(y_i\) 分别计算反转损失并更新潜变量 \(w\)。每轮遍历所有 \(m\) 个 token 各更新一次。问题：单 token 梯度噪声大，弱视觉关联 token 的梯度可能误导优化。
Convergent Token-based MI (TMI-C): 对每个 token 做 \(K\) 次更新直到收敛后再进入下一个 token。问题：收敛方向不稳定，匹配率反而最低（<30%）。
Sequence-based MI (SMI): 聚合所有 token 的损失为统一目标 \(\mathcal{L} = \frac{1}{m}\sum_{i=1}^m \mathcal{L}_{inv}(M(t, G(w), y_{<i}), y_i)\)，每步用全局梯度更新 \(w\)。匹配率 >95%，远优于 TMI。
SMI-AW（核心贡献）: 观察到不同 token 对视觉输入的注意力强度不同——视觉接地良好的 token（如名字中描述性的部分）有强交叉注意力，其梯度携带更丰富的视觉信息；而语言驱动的 token（如冠词）注意力弱，梯度信息量少。SMI-AW 用交叉注意力值 \(\alpha_i\) 动态计算权重 \(\beta_i = \alpha_i / \sum_j \alpha_j\)，加权聚合损失：\(\mathcal{L} = \sum_{i=1}^m \beta_i \mathcal{L}_{inv}\)。关键：权重在每个反转步骤动态更新，因为随着重建图像逐渐逼近目标，token 对视觉输入的依赖度会变化。

损失函数 / 训练策略¶

三种反转损失：交叉熵 \(\mathcal{L}_{CE}\)、最大间隔 \(\mathcal{L}_{MML}\)、logit 最大化 \(\mathcal{L}_{LOM}\)（最优）
\(\mathcal{L}_{LOM}\) 直接最大化目标 token 的 logit 并加正则化防止 logit 无界增长
反转步数 \(N = 70\)，更新率 \(\lambda = 0.05\)
初始候选选择：采样 2000 个 \(w\)，选 top-16 低损失候选；最终选择：10 次随机增强后选 8 个最优

实验关键数据¶

FaceScrub 数据集（LLaVA-v1.6-7B）¶

方法	AttAcc_M ↑	AttAcc_D Top1 ↑	AttAcc_D Top5 ↑	δ_face ↓
TMI	42.20%	18.03%	40.25%	0.8901
TMI-C	16.08%	3.85%	11.64%	1.1825
SMI	57.83%	33.50%	61.56%	0.7473
SMI-AW	61.01%	37.62%	66.16%	0.7265

跨数据集（LLaVA-v1.6-7B + SMI-AW）¶

数据集	AttAcc_M ↑	AttAcc_D Top1 ↑
FaceScrub	61.01%	37.62%
CelebA	67.05%	45.25%
StanfordDogs	78.13%	55.83%

跨模型（FaceScrub + SMI-AW）¶

VLM	AttAcc_M ↑	δ_eval ↓
LLaVA-v1.6-7B	61.01%	134.94
InternVL2.5-8B	55.05%	139.18
MiniGPT-v2	47.92%	161.25
Qwen2.5-VL-7B	32.03%	150.46

人类评估¶

VLM	数据集	AccAcc_H ↑
LLaVA-v1.6-7B	CelebA	61.21%
LLaVA-v1.6-7B	FaceScrub	56.93%
MiniGPT-v2	FaceScrub	57.22%

消融实验要点¶

序列 vs token：序列方法的目标匹配率 >95%，token 方法仅 60-79%（TMI-C <30%），证明全局梯度信号更稳定
自适应加权 vs 均匀加权：SMI-AW 在所有指标上一致优于 SMI，验证了视觉注意力引导权重的有效性
损失函数：\(\mathcal{L}_{LOM}\) 最优，\(\mathcal{L}_{CE}\) 次之，\(\mathcal{L}_{MML}\) 最差
Prompt 鲁棒性：不同输入 prompt 对攻击效果影响很小（AttAcc_M 在 59-61% 范围）
公开模型攻击：成功从公开的 LLaVA-v1.6-7B 和 MiniGPTv2 重建名人面部图像

亮点¶

开拓性问题：首次系统研究 VLM 的模型反转攻击，填补了多模态隐私安全的重要空白
关键洞察：不同输出 token 的视觉接地程度不同，且随反转步骤动态变化——这是 VLM 特有的特性，单模态 MI 中不存在
方法设计巧妙：利用交叉注意力图作为梯度信息量的代理，将 VLM 的内部机制转化为攻击优势
实用验证：在公开发布的 VLM 上成功重建名人面孔，证明隐私风险是现实的而非理论的
大规模人类评估：4,240-8,000 名众包参与者，评估结果可信

局限性 / 可改进方向¶

白盒假设：实际场景中攻击者可能无法获取完整模型参数和注意力图
领域限制：仅在人脸和狗品种数据集上验证，未扩展到自然场景或医学图像
视觉编码器冻结假设：若视觉编码器也被微调，攻击效果可能不同
防御方向未探索：论文主要关注攻击，未提出具体防御方案
Qwen2.5-VL 攻击效果较差（仅 32%），可能与其架构差异有关，值得深入分析

与相关工作的对比¶

vs 传统 MI (GMI/PPA/KEDMI): 传统方法针对分类模型的类别标签做反转；本文将 MI 推广到 VLM 的 token 序列生成，需要全新的优化策略
vs 对比学习下的 MI: 先前工作主要研究 CLIP 等对比模型的对齐泄露；本文聚焦在 VLM 的生成式语言建模阶段，攻击面不同
vs 联邦学习隐私攻击: FL 中的梯度反转攻击依赖拦截梯度；本文从已训练模型出发，不需要训练过程中的梯度

启发与关联¶

VLM 隐私防御：本文揭示的攻击路径提示需要在 VLM 训练中加入隐私保护措施——差分隐私、正则化或类似 Trap-MID 的诱饵信号
与 RED (Rationale-Enhanced Decoding) 的关系：两篇论文都利用了 VLM 中 token 对视觉输入的不同依赖程度，但方向相反——RED 用来增强推理，SMI-AW 用来增强攻击
多模态安全研究：随着 VLM 在医疗（如放射影像报告生成）中的应用增多，此类攻击的现实风险不容忽视

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将 MI 攻击推广到 VLM，问题意义重大且方法设计合理
实验充分度: ⭐⭐⭐⭐⭐ 4 种 VLM、3 个数据集、5 种评估指标（含大规模人类评估）、公开模型攻击验证
写作质量: ⭐⭐⭐⭐ 逻辑清晰，问题描述准确，但补充材料内容过多可精简
价值: ⭐⭐⭐⭐⭐ 对 VLM 部署的隐私安全警示意义极高，开拓了新的研究方向