No Caption, No Problem: Caption-Free Membership Inference via Model-Fitted Embeddings¶

会议: ICLR 2026
arXiv: 2602.22689
代码: GitHub
领域: AI 安全 / 隐私攻击
关键词: 成员推断攻击, 扩散模型, 无标题设定, 模型拟合嵌入, 隐私审计

一句话总结¶

提出 MoFit，首个面向无标题场景的扩散模型成员推断攻击框架，通过构建过拟合于目标模型的代理图像和条件嵌入，利用成员样本对条件错配的不对称敏感性实现有效推断。

研究背景与动机¶

扩散模型在高保真生成中的记忆化倾向引发隐私和知识产权担忧
成员推断攻击（MIA）是审计记忆化的标准方法
现有 MIA 的关键假设缺陷：假设攻击者拥有 ground-truth 标题，但实际中：
- 艺术家怀疑作品被复制时通常无法获得训练标题
- 公开生成 AI 平台不披露训练集来源
用 VLM 生成的替代标题替换 ground-truth 标题后，SOTA 方法性能显著下降

方法详解¶

核心观察¶

成员样本和非成员样本对条件错配的敏感性存在系统差异： - 成员样本在替代条件下 \(\mathcal{L}_{\text{cond}}\) 显著增加 - 非成员样本变化较小 - \(\mathcal{L}_{\text{uncond}}\) 对两组均保持稳定

MoFit 两阶段框架¶

阶段 1：模型拟合代理优化

构建过拟合于目标模型无条件先验的代理图像 \(x_0^* = x_0 + \delta^*\)：

\[\delta^* = \arg\min_\delta \mathbb{E}_{z_0', t, \hat{\epsilon}} [\|\hat{\epsilon} - \epsilon_\theta(z_t', t, \phi_{\text{null}})\|^2]\]

固定 \(\hat{\epsilon}\) 和 \(t\) 以稳定扰动方向，沿梯度符号方向迭代更新 \(\delta\)。

阶段 2：代理驱动嵌入提取

从代理图像 \(x_0^*\) 优化提取嵌入 \(\phi^*\)：

\[\phi^* = \arg\min_\phi \mathbb{E}_{z_0^*, t, \hat{\epsilon}} [\|\hat{\epsilon} - \epsilon_\theta(z_t^*, t, \phi)\|^2]\]

以 VLM 生成的标题嵌入为初始化。

阶段 3：成员推断

利用模型拟合嵌入 \(\phi^*\) 条件化原始查询 \(x_0\)：

\[\mathcal{L}_{\text{MoFit}} = \mathbb{E}[\|\hat{\epsilon} - \epsilon_\theta(z_t, t, \phi^*)\|^2] - \mathbb{E}[\|\hat{\epsilon} - \epsilon_\theta(z_t, t, \phi_{\text{null}})\|^2]\]

最终决策融合 MoFit 分数和辅助损失（\(\mathcal{L}_{\text{uncond}}\) 或 \(\mathcal{L}_{\text{VLM}}\)）。

实验关键数据¶

无标题设定下的 MIA 性能对比¶

方法	条件	Pokemon ASR	Pokemon TPR@1%FPR	MS-COCO ASR	MS-COCO TPR@1%FPR
CLiD	GT	96.52	90.14	86.50	68.80
CLiD	VLM	77.55	19.23	80.90	50.80
PFAMI	VLM	74.43	6.01	80.40	29.40
SecMI	VLM	78.51	6.97	57.30	4.20
MoFit	*\(\phi^\)**	94.48	50.48	88.00	47.00

消融实验：代理图像变体¶

输入	条件	Pokemon ASR	MS-COCO ASR	MS-COCO TPR@1%FPR
\(x_0\)（原始）	\(\phi\)	75.63	78.00	31.00
\(x_0 + \delta\)（随机噪声）	\(\phi\)	93.99	81.70	29.20
\(x_0 + \delta_{\text{MAX}}\)（反向优化）	\(\phi\)	75.87	78.00	34.00
MoFit (\(x_0 + \delta^*\))	*\(\phi^\)**	94.48	88.00	47.00

关键发现¶

MoFit 在无标题设定下大幅超越 VLM 条件化基线（ASR 提升最高 +25%，TPR@1%FPR 提升 +30-47%）
在 MS-COCO 上甚至超越使用 ground-truth 标题的 CLiD（ASR: 88.00 vs 86.50）
代理优化是关键：仅使用原始图像或随机噪声优化嵌入效果显著较差
在 SD v1.5 预训练模型上同样有效（ASR: 77.61），说明方法具有通用性

亮点与洞察¶

问题定义的实际意义：无标题 MIA 场景更贴近现实审计需求
理论洞察深刻：成员样本对条件错配的不对称敏感性提供了可利用的新信号
巧妙的两阶段设计：先构建过拟合代理再提取嵌入，形成紧密耦合的模型拟合对
无需额外数据或模型：仅需访问目标模型的推理接口

局限性¶

需要访问目标模型的去噪网络参数（灰盒假设）
代理优化和嵌入提取增加了计算开销
固定时间步 \(t=140\) 为超参数，可能需要针对不同模型调整
对 LAION 规模的预训练模型效果相对减弱（该场景所有方法都表现不佳）

评分¶

新颖性：⭐⭐⭐⭐⭐ — 首个针对无标题场景的扩散模型 MIA 框架
技术深度：⭐⭐⭐⭐ — 核心观察深刻，两阶段优化设计合理
实验完整性：⭐⭐⭐⭐ — 多数据集、多模型、充分消融
实用价值：⭐⭐⭐⭐ — 为数据隐私审计提供了实用工具