Text-to-Image Models Leave Identifiable Signatures: Implications for Leaderboard Security¶

会议: NeurIPS 2025 (Workshop: Lock-LLM)
arXiv: 2510.06525
代码: 无
领域: AI 安全 / 图像生成
关键词: 文生图模型, 排行榜安全, 模型去匿名化, CLIP 嵌入, 对抗性操纵

一句话总结¶

本文揭示文生图（T2I）模型因训练数据、架构和规模差异会在生成图像中留下可识别的"签名"，攻击者即使不控制输入提示也能通过 CLIP 嵌入空间中的简单质心分类以 87% 的 Top-1 准确率去匿名化排行榜上的匿名模型，从而实施排名操纵攻击。

研究背景与动机¶

领域现状：生成式 AI 排行榜（如 Chatbot Arena 及其图像版本 ArtificialAnalysis）已成为评估和比较模型能力的核心平台，直接影响研究方向和部署决策。投票式排行榜通过匿名展示两个模型的输出并让用户投票来建立排名，其安全性依赖于"用户不知道哪个输出来自哪个模型"的匿名保证。

现有痛点：近期研究已揭示 LLM 排行榜存在排名操纵（rank manipulation）风险——攻击者通过识别匿名模型的身份后有针对性地投票来提升或打压特定模型。然而，这些 LLM 去匿名化攻击通常需要控制输入提示或训练分类器，在排行榜限制用户自由提交 prompt 时有效性大幅下降。本文的关键观察是：T2I 排行榜的去匿名化可能比 LLM 更容易——图像比文本包含更丰富的模型特定"指纹"。

核心矛盾：赋予模型竞争力的独特视觉风格（如 Midjourney 的特征性画风、DALL-E 3 的特定渲染倾向）恰恰是使其被识别的"签名"。模型越有辨识度、越有竞争力，就越容易被去匿名化。这是一个根本性的安全-质量张力：消除签名可能损害生成质量，保留签名则暴露于攻击。

核心 idea：利用 T2I 模型生成图像的低模内多样性和高模间差异性，在 CLIP 嵌入空间中通过无需训练的质心分类即可高效去匿名化排行榜上的模型，揭示 T2I 排行榜面临的严重安全威胁。

方法详解¶

整体框架¶

提出基于 CLIP 嵌入空间的质心去匿名化方法（Algorithm 1），整体流程无需训练任何分类器：对排行榜给定的提示 \(p\)，向每个候选模型 \(M_i\) 发送该提示并生成 \(k\) 张图像，所有图像和排行榜提供的匿名图像 \(I^*\) 映射到 CLIP 嵌入空间，计算每个模型 \(k\) 个嵌入的质心 \(c_i\)，排行榜图像距离最近的质心所对应的模型即为预测。同时提出提示级可区分性度量来量化不同提示下模型的可分离程度。

关键设计¶

质心去匿名化算法:
- 功能：在 CLIP 嵌入空间中通过最近质心匹配识别排行榜图像的生成模型
- 核心思路：对每个候选模型 \(M_i \in \mathcal{C}\)，使用提示 \(p\) 生成 \(k\) 张图像 \(\{I_{i,1}, \ldots, I_{i,k}\}\)，编码为嵌入 \(E_i = \{\phi(I_{i,1}), \ldots, \phi(I_{i,k})\}\)，计算质心 \(c_i = \frac{1}{k}\sum_{j=1}^{k} E_{i,j}\)。排行榜图像 \(I^*\) 编码为 \(e^* = \phi(I^*)\)，预测模型 \(\hat{M} = \arg\min_{M_i \in \mathcal{C}} \|e^* - c_i\|_2\)。整个过程仅需 CLIP 编码器前向传播和距离计算，无需任何训练
- 设计动机：T2I 模型对同一提示的生成具有低模内多样性（同一模型不同种子生成的图像在嵌入空间中聚集）和高模间差异性（不同模型的聚类明显分离），这使得简单的质心匹配就足够有效。避免训练分类器也意味着攻击者无需历史数据
提示级可区分性度量（Distinguishability Metric）:
- 功能：量化每个提示下不同模型的生成在嵌入空间中的可分离程度，用于识别最容易暴露模型身份的提示
- 核心思路：对每个提示 \(p_i\) 和模型 \(M_j\)，检查其 \(k\) 个嵌入各自的最近邻是否来自同一模型，计算正确聚类比例 \(\text{frac}(i,j) = \frac{1}{k}\sum_{\ell=1}^{k} \mathbb{I}[\text{NN}(e_{i,j}^{(\ell)}) \in M_j]\)。若 \(\text{frac}(i,j) > \tau\) 则称该模型在该提示下"可分离"。提示级可区分性 \(D(i) = \frac{1}{|\mathcal{C}|}\sum_{M_j \in \mathcal{C}} \mathbb{I}[\text{frac}(i,j) > \tau]\) 是所有模型中可分离的比例
- 设计动机：不同提示对去匿名化的支持程度差异很大——某些提示下所有模型完美可分（\(D=1.0\)），某些提示下模型高度混淆（\(D=0.21\)）。这个度量可以帮助攻击者选择最有效的提示（如果允许提交），也能帮助防御者识别和规避高风险提示
一对多分类与目标攻击:
- 功能：评估攻击者针对特定模型（而非识别所有模型）的去匿名化能力
- 核心思路：对每个目标模型 \(M_{target}\)，判断排行榜图像是否来自该模型——如果其嵌入到 \(M_{target}\) 质心的距离小于到所有其他质心的距离，则判定为阳性。攻击者可在不确定时"弃投"，通过控制假阳性率来最大化真阳性率
- 设计动机：实际攻击场景中，攻击者往往只关心特定的目标模型（如要提升自家模型排名），一对多分类判断在这种场景下准确率更高且可通过弃投控制风险

损失函数 / 训练策略¶

无模型训练。CLIP 嵌入使用预训练的 CLIP 模型（标准 ViT 架构），图像统一缩放到 224×224 像素后编码。所有 T2I 模型按各自默认或推荐的推理步数生成 1024×1024 图像（部分模型如 SD v1.5 为 512×512）。

实验关键数据¶

主实验¶

指标	数值
Top-1 去匿名化准确率	~87%
Top-3 准确率	~95%
Top-5 准确率	~98%
随机猜测基线	~5.26% (1/19 个模型)
k=1 时 Top-1 准确率	~57%
提示可控攻击 Top-1 准确率	~99%
一对多分类准确率	~99%
HiDream 一对多准确率	100%
SDXL Turbo 一对多准确率	100%

消融实验¶

分析维度	关键数据	说明
生成数 k 的影响	k=1: 57%, k=5: ~78%, k=10+: ~87%	k>10-15 后收益递减
架构变体区分	SD 3.5 large vs medium 误分类率 ~3%	同架构不同大小仍高度可区分
同家族区分	Flux dev vs schnell 误分类率 ~3.8%	同公司不同变体也可区分
可区分性分布	部分提示 D=1.0, 最低 D=0.21	提示间差异大
高可区分性提示攻击	选 D=1.0 提示, 100 次随机测试 ~99% Top-1	攻击者可选择最优提示
无其他模型访问	部分模型仍可通过异常检测区分	即使无候选模型集也可攻击

关键发现¶

不同 T2I 模型对相同提示生成的图像具有极低的模内多样性和极高的模间差异性——同一模型的 5 张生成图在嵌入空间中紧密聚集，不同模型的聚类则清晰分离（Figure 1 直观展示）
即使完全不控制提示（与 LLM 去匿名化场景不同），仅用质心分类就能达到 87% Top-1 准确率，远超随机基线的 17 倍
可区分性分数与去匿名化准确率高度正相关，存在完美可分离（\(D=1.0\)）的提示——如果攻击者能提交自定义提示，准确率接近 100%
即使是同一组织的不同架构（如 Stability AI 的 SD 2.1 vs SD 3.0）或同一架构的不同大小（SD 3.5 large vs medium），误分类率也仅 3-4%
攻击门槛极低：仅需预训练 CLIP 编码器和对候选模型的 API 访问，无需训练分类器、无需历史数据

亮点与洞察¶

根本性的安全-质量张力：模型的独特视觉风格既是竞争力来源也是安全漏洞，这个矛盾在当前技术框架下几乎无解。消除可识别签名等价于让所有模型的输出趋于一致，这本身就违背了差异化竞争的目的。
极致的方法简单性：整个攻击仅使用现成的 CLIP 编码器和最近质心匹配，无需训练任何模型、无需控制输入、无需历史数据。方法的简单性恰恰说明问题的严重性——如果最朴素的方法就能达到 87% 准确率，更复杂的攻击会更有效。
超越 LLM 的威胁程度：论文论证 T2I 模型比 LLM 更容易被去匿名化，因为视觉输出的"签名"比文本更显著、更难隐藏。这意味着图像排行榜的安全需求实际上比文本排行榜更紧迫。

局限与展望¶

论文主要揭示问题但未深入探讨有效防御方案，仅提到"轮换提示"和"投票模式异常检测"等方向
实验中使用固定的 CLIP 模型做嵌入，未探索其他嵌入模型（如 DINOv2、SigLIP）是否同样有效
参与实验的 19 个模型中部分为同一系列变体，独立模型数量有限
未分析模型在不同时间（版本更新后）的签名稳定性——如果模型频繁更新，攻击者的质心需要持续刷新
防御角度：论文指出轮换提示提供有限保护（模型在未见过的提示上仍高度可区分），但未测试在嵌入空间中加噪或在生成时注入随机性等主动防御策略

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统揭示 T2I 排行榜的去匿名化漏洞，安全-质量张力的发现有深度
实验充分度: ⭐⭐⭐⭐ 19 个模型、280 个提示、15 万+张图像的大规模实验，多角度验证
写作质量: ⭐⭐⭐⭐ 问题定义清晰，可区分性度量的形式化处理简洁规范
价值: ⭐⭐⭐⭐ 对 AI 评估基础设施的安全性提出重要警示，对排行榜设计和防御策略有直接指导意义