FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models¶

会议: NeurIPS 2025
arXiv: 2511.07505
代码: 无
领域: ai_safety
关键词: 联邦学习, 隐私保护, 数据去重, 样本加权, 安全多方计算

一句话总结¶

FedRW 提出首个无需可信第三方的联邦学习隐私保护软去重框架，通过安全多方计算获取全局样本频率并进行频率感知的样本加权，在预处理上实现最高 28.78× 加速，在模型性能上实现约 11.42% 的 perplexity 改善。

研究背景与动机¶

领域现状：大规模语料中的数据重复严重影响 LLM 性能和隐私安全，数据去重已成为训练流水线的标准预处理步骤。去重分为硬去重（直接删除）和软去重（重加权）。
现有痛点：联邦学习中由于隐私约束无法直接共享数据，全局去重面临困难。当前 SOTA 方法 EP-MPD 采用加密硬去重，但存在三个问题：(1) 硬删除可能丢失有信息量的样本；(2) 多轮密钥协商带来大量计算/通信开销；(3) 依赖可信第三方。
核心矛盾：局部去重无法检测跨客户端重复，而全局去重又受隐私约束，现有方法在"保隐私"和"保数据质量"之间难以平衡。
本文要解决什么：设计一个不依赖可信第三方的隐私保护软去重框架，用频率感知加权替代硬删除。
切入角度：将样本权重设为全局频率的反函数，通过两两安全集合交集协议 (PSI) 获取频率信息。
核心idea一句话：用安全多方计算获取全局样本频率，以对数反函数加权替代硬删除，既保隐私又保数据多样性。

方法详解¶

整体框架¶

FedRW 分为三个阶段：(1) PPMPR 协议：各客户端通过两两安全计算获取每个本地样本的全局频率；(2) 并行编排加速：将 \(O(n^2)\) 的两两交互优化为 \(O(2^{\lceil\log_2 n\rceil})\)；(3) 增强训练：用频率加权损失进行联邦 LLM 训练。

关键设计¶

PPMPR 协议 (Privacy-Preserving Multi-Party Reweighting)：
做什么：在不暴露原始数据的前提下，让每个客户端获得其本地样本的全局出现频率
核心思路：将全局频率估计分解为 \(\binom{n}{2}\) 次两方安全计算 (Π₂PC)。每次 Π₂PC 中，两个客户端 \(P_i, P_j\) 通过 Private Set Intersection (PSI) 计算数据交集 \(\mathcal{I}\)，然后交换交集中样本的局部频率
功能定义：\(f_{\text{PPMPR}}(X_1,...,X_n) \to (W_1,...,W_n)\)，将各客户端数据映射为权重向量
设计动机：避免依赖可信第三方，每步只泄露交集信息和频率计数
并行编排策略 (Parallel Orchestration)：
做什么：将顺序执行的 \(O(n^2)\) 次 Π₂PC 优化为并行执行
核心思路：利用二叉树结构的层级合并。在每一层，不重叠的客户端对可以并发执行 Π₂PC。通过构建配对矩阵 \(\mathcal{M}_k\)，使用循环左移 \(\text{RotL}(\vec{b}, k)\) 生成不冲突的配对方案
复杂度：从 \(O(n^2)\) 降到 \(O(2^{\lceil\log_2 n\rceil} - 1)\)，对 \(n=50\) 个客户端实现 4.09–28.78× 加速
频率感知加权训练：
做什么：根据全局频率对训练样本的损失贡献进行加权
权重公式：\(\vec{\mathcal{W}} = \frac{1}{\ln(\vec{\mathcal{C}} + \vec{1}) + \vec{\varepsilon}}\)，其中 \(\vec{\mathcal{C}}\) 为全局频率向量
加权损失：\(\mathcal{L}_{\text{batch}} = \frac{\sum_{i=1}^B \vec{\mathcal{W}}_i \cdot \ell_i^{(t)}}{\sum_{i=1}^B \vec{\mathcal{W}}_i}\)
设计动机：对数函数提供平滑的权重衰减，避免硬阈值导致的信息丢失；频繁样本被降权但不被完全排除，保留适度冗余有助于泛化

训练策略¶

模型更新仍使用标准 FedAvg 聚合，加权机制仅作用于 loss 层面，对训练框架无侵入性。

实验关键数据¶

主实验：GPT-2 Large, 30% 重复率¶

数据集	Raw Data	Baseline (EP-MPD)	FedRW	相对PPL改善
Haiku	3.26	2.89	2.56	11.42%
Rotten Tomatoes	2.65	2.21	1.61	27.15%
Short Jokes	4.11	3.79	3.15	16.89%
Sonnets	4.39	4.35	4.07	6.44%

预处理效率对比¶

客户端数量	EP-MPD 时间	PPMPR 时间	加速比
10	~18s	~1s	17.61×
30	~120s	~5s	~24×
50	~300s	~10s	28.78×

消融：Non-IID 设置 (Qwen3-0.6B, Rotten Tomatoes)¶

配置	Baseline PPL	FedRW PPL	说明
IID	1.71	1.59	标准设置
Quantity Skew	2.02	1.96	数据量不均衡
Label Skew	2.44	1.66	标签分布不均，改善最显著
Feature Skew	3.43	2.70	不同数据类型，仍稳定有效

关键发现¶

FedRW 在所有数据集和模型配置上一致优于硬去重基线
在文学结构严格的数据集（Sonnets, Haiku）上改善更显著，说明冗余对结构化文本影响更大
在 Non-IID 设置下（特别是 Label Skew），FedRW 的优势反而更大
随模型规模增加效果更好：Qwen2.5-7B 上 Twitter 数据集相对改善达 26.57%

亮点与洞察¶

软去重 vs 硬去重：核心创新在于用加权替代删除，对数反函数 \(1/\ln(freq+1)\) 是一个优雅的设计——高频样本被温和降权，适度冗余反而增强泛化
无需可信第三方：纯两方 PSI 构建，安全性更强，部署更灵活
并行编排：二叉树结构的客户端配对策略简洁高效，可直接复用到其他联邦安全计算场景

局限性 / 可改进方向¶

仅验证了文本数据，未扩展到多模态联邦学习
对数加权函数的选择缺乏理论最优性保证，可能存在更好的加权策略
PSI 协议是半诚实模型下的安全保证，未考虑恶意客户端场景
重复模拟是人工注入的，和真实场景的自然冗余分布可能不同

评分¶

新颖性: ⭐⭐⭐⭐ 首个联邦软去重框架，但核心技术（PSI + 加权损失）都是已有组件的组合
实验充分度: ⭐⭐⭐⭐⭐ 涵盖多数据集、多模型（GPT-2到Qwen3/Llama）、多设置（IID/Non-IID）、效率和性能双评估
写作质量: ⭐⭐⭐⭐ 结构清晰，协议描述规范，但部分符号过于密集
价值: ⭐⭐⭐⭐ 解决了联邦 LLM 训练中的实际痛点，框架设计通用性强