FDeID-Toolbox: Face De-Identification Toolbox¶

会议: CVPR 2026
arXiv: 2603.13121
作者: Hui Wei, Hao Yu, Guoying Zhao (University of Oulu) 代码: infraface/FDeID-Toolbox
领域: image_generation
关键词: face de-identification, privacy preservation, toolbox, benchmark, evaluation protocol

一句话总结¶

提出 FDeID-Toolbox，一个模块化的人脸去标识化工具箱，统一集成了 16 种去标识化方法（涵盖朴素/生成式/对抗式/K-Same 四大类）、6 个基准数据集和覆盖隐私保护/属性保持/视觉质量三维度的系统化评估协议，解决了该领域实现碎片化、评估不一致、结果不可比的问题。

研究背景与动机¶

人脸去标识化（Face De-Identification, FDeID）旨在从面部图像中移除可识别个人身份的信息，同时保留任务相关的属性（如年龄、性别、表情）。这在隐私保护计算机视觉中至关重要，但该领域面临三大困境：

实现碎片化：各方法各自为政，使用不同框架、不同预处理流程、不同数据格式，难以复现和对比
评估协议不一致：FDeID 横跨多个下游任务（年龄估计、性别识别、表情分析等），需要从隐私保护、属性保持、视觉质量三个维度评估，现有代码库缺乏统一标准
结果不可比：不同论文使用不同的数据划分、不同的评估模型、不同的指标定义，导致方法间的性能对比缺乏公平性

核心动机是构建一个统一、模块化、可扩展的工具箱，让研究者能在完全一致的条件下公平对比各种 FDeID 方法，推动可复现研究。

方法详解¶

整体架构¶

FDeID-Toolbox 采用模块化设计，包含四个核心组件：

标准化数据加载器：为 6 个主流基准数据集（LFW、AgeDB、AffectNet、CelebA-HQ、FairFace、PURE）提供统一接口
统一方法实现：涵盖从经典方法到 SOTA 生成模型的 16 种去标识化方法
灵活推理管线：基于 YAML 配置文件驱动，CLI 参数可覆盖配置值
系统化评估协议：覆盖隐私、属性保持和质量三个评估维度

BaseDeIdentifier 抽象基类¶

所有方法继承自统一的 BaseDeIdentifier 基类，提供标准化接口：

process_frame(frame, face_bbox): 对单帧图像的人脸区域执行去标识化
process_batch(frames, face_bboxes): 原生批处理支持
get_name() / get_config(): 方法元信息
工厂函数 get_deidentifier(config) 通过配置字典自动实例化

16 种去标识化方法（四大类）¶

类别	方法	方法标识	核心思路
Naive	Gaussian Blur	blur	高斯模糊人脸区域
Naive	Pixelation	pixelate	像素化（马赛克）人脸区域
Naive	Black Mask	mask	黑色遮罩覆盖人脸
Generative	CIAGAN	ciagan	条件身份匿名化 GAN
Generative	AMT-GAN	amtgan	对抗妆容迁移 GAN
Generative	Adv-Makeup	advmakeup	对抗性妆容生成
Generative	WeakenDiff	weakendiff	基于扩散模型的身份弱化
Generative	DeID-rPPG	deid_rppg	保留 rPPG 信号的去标识化
Generative	G2Face	g2face	生成式人脸替换
Adversarial	PGD	pgd	投影梯度下降对抗扰动
Adversarial	MI-FGSM	mifgsm	动量迭代 FGSM
Adversarial	TI-DIM	tidim	平移不变多样输入法
Adversarial	TI-PIM	tipim	平移不变块输入法
Adversarial	Chameleon	chameleon	自然对抗扰动
K-Same	k-Same-Average	average	k 近邻平均人脸
K-Same	k-Same-Select	select	k 近邻选择替换
K-Same	k-Same-Furthest	furthest	k 最远邻替换

三维评估体系¶

隐私保护维度： - Verification Accuracy：人脸验证准确率（越低越好，说明身份被成功隐藏） - TAR@FAR：在给定误接受率下的真接受率 - PSR（Privacy Success Rate）：隐私保护成功率 - 评估模型：ArcFace、CosFace、AdaFace

属性保持维度： - 年龄：MAE（平均绝对误差） - 性别：分类准确率 - 表情：分类准确率 - 人脸关键点：NME（归一化平均误差） - 种族：分类准确率 - rPPG：心率 MAE 和 RMSE

视觉质量维度： - 参考型指标：PSNR、SSIM、LPIPS - 无参考分布指标：FID - 无参考质量指标：NIQE

实验关键数据¶

Table 1: 隐私保护评估（LFW 数据集）¶

方法	类别	ArcFace Acc↓	CosFace Acc↓	AdaFace Acc↓	PSR↑
Original	-	99.8	99.7	99.8	0.0
Blur	Naive	56.2	58.1	55.8	87.4
Pixelate	Naive	62.4	63.7	61.9	79.3
Mask	Naive	50.1	50.3	50.0	99.6
CIAGAN	Generative	53.8	55.2	54.1	91.2
AMT-GAN	Generative	58.7	60.3	57.9	82.6
WeakenDiff	Generative	51.4	52.8	51.1	96.8
G2Face	Generative	52.1	53.5	51.8	95.3
PGD	Adversarial	67.3	69.1	66.8	64.5
Chameleon	Adversarial	61.8	63.4	60.9	76.2
k-Same-Avg	K-Same	55.4	57.2	54.9	89.1
k-Same-Furthest	K-Same	53.1	54.8	52.7	93.5

生成式方法（WeakenDiff, G2Face）在隐私保护上接近 Black Mask，但后者完全破坏视觉信息。对抗式方法隐私保护相对较弱。

Table 2: 视觉质量与属性保持权衡（AgeDB / CelebA-HQ）¶

方法	FID↓	SSIM↑	LPIPS↓	Age MAE↓	Gender Acc↑	Landmark NME↓
Blur	142.5	0.71	0.38	8.2	78.4	12.3
Pixelate	156.8	0.65	0.42	9.1	75.6	14.7
Mask	198.3	0.52	0.56	15.3	62.1	N/A
CIAGAN	78.4	0.82	0.21	4.5	89.3	5.8
AMT-GAN	85.2	0.79	0.24	5.1	87.8	6.2
WeakenDiff	62.1	0.86	0.17	3.8	91.5	4.6
G2Face	58.7	0.88	0.15	3.4	92.1	4.2
PGD	45.2	0.93	0.08	2.1	95.8	2.8
Chameleon	52.3	0.91	0.11	2.6	94.2	3.1
k-Same-Avg	95.6	0.76	0.28	5.8	84.7	7.4
k-Same-Furthest	108.3	0.73	0.31	6.5	82.3	8.1

关键发现： - 隐私-属性保持权衡：对抗式方法（PGD, Chameleon）保持属性最好但隐私保护最弱；Black Mask 隐私最强但属性完全丧失 - 生成式方法取得最佳平衡：WeakenDiff 和 G2Face 在隐私保护（PSR>95%）和属性保持（Age MAE<4, Gender>91%）之间取得最优权衡 - 朴素方法和 K-Same 方法：视觉质量较差（FID>95），属性保持中等 - 统一评估的价值：在一致条件下才能看到各类方法的真实优劣，部分方法在原论文中声称的优势在统一评估下不再成立

亮点与洞察¶

统一抽象接口：BaseDeIdentifier 基类设计简洁（process_frame + process_batch），新方法仅需 ~30 行代码即可集成，扩展性极强
YAML 配置驱动：所有实验通过单一 YAML 文件完全指定，CLI 可覆盖任意参数，确保实验完全可复现
三维评估首次统一：此前隐私保护、属性保持、视觉质量三个维度从未在同一框架下使用统一的评估模型和数据划分进行系统对比
涵盖面广：16 种方法横跨四大类别，6 个数据集覆盖多种下游任务，8 种评估维度（隐私 + 5 种属性 + rPPG + 质量），是当前最全面的 FDeID 基准
轻量级依赖：纯 PyTorch 实现，无复杂 C++ 扩展或冲突框架，降低使用门槛
工厂模式设计：通过配置字典即可切换方法，便于大规模实验自动化

局限性¶

技术报告性质：作为 toolbox 论文，方法论创新有限，核心贡献在于工程整合和标准化
部分方法尚未上传：GitHub 仓库显示 K-Same 和部分生成式方法仍在上传中，完整性有待验证
数据集规模受限：LFW 等数据集规模较小且人脸多样性有限，面向大规模真实场景的泛化需进一步验证
缺少视频级评估：虽然接口支持逐帧处理，但缺乏视频去标识化的时序一致性评估
缺少差分隐私等形式化保证：评估仅基于经验指标（人脸验证），未提供理论层面的隐私保证
扩散模型方法有限：仅 WeakenDiff 基于扩散模型，近期涌现的多种扩散去标识化方法未被纳入

评分¶

新颖性: ⭐⭐⭐ — 工具箱/基准论文，方法论创新有限，但统一评估框架的设计有明确贡献
实验充分度: ⭐⭐⭐⭐ — 16 方法 × 6 数据集 × 三维评估，覆盖全面；方法类别多样性强
写作质量: ⭐⭐⭐⭐ — 结构清晰，模块化设计描述详细，代码示例丰富
价值: ⭐⭐⭐⭐ — 为 FDeID 领域提供急需的标准化评估平台，有望成为该方向的标准基准工具