跳转至

FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models

会议: NeurIPS 2025
arXiv: 2511.07505
代码: 无
领域: ai_safety
关键词: 联邦学习, 隐私保护, 数据去重, 样本加权, 安全多方计算

一句话总结

FedRW 提出首个无需可信第三方的联邦学习隐私保护软去重框架,通过安全多方计算获取全局样本频率并进行频率感知的样本加权,在预处理上实现最高 28.78× 加速,在模型性能上实现约 11.42% 的 perplexity 改善。

研究背景与动机

  1. 领域现状:大规模语料中的数据重复严重影响 LLM 性能和隐私安全,数据去重已成为训练流水线的标准预处理步骤。去重分为硬去重(直接删除)和软去重(重加权)。
  2. 现有痛点:联邦学习中由于隐私约束无法直接共享数据,全局去重面临困难。当前 SOTA 方法 EP-MPD 采用加密硬去重,但存在三个问题:(1) 硬删除可能丢失有信息量的样本;(2) 多轮密钥协商带来大量计算/通信开销;(3) 依赖可信第三方。
  3. 核心矛盾:局部去重无法检测跨客户端重复,而全局去重又受隐私约束,现有方法在"保隐私"和"保数据质量"之间难以平衡。
  4. 本文要解决什么:设计一个不依赖可信第三方的隐私保护软去重框架,用频率感知加权替代硬删除。
  5. 切入角度:将样本权重设为全局频率的反函数,通过两两安全集合交集协议 (PSI) 获取频率信息。
  6. 核心idea一句话:用安全多方计算获取全局样本频率,以对数反函数加权替代硬删除,既保隐私又保数据多样性。

方法详解

整体框架

FedRW 分为三个阶段:(1) PPMPR 协议:各客户端通过两两安全计算获取每个本地样本的全局频率;(2) 并行编排加速:将 \(O(n^2)\) 的两两交互优化为 \(O(2^{\lceil\log_2 n\rceil})\);(3) 增强训练:用频率加权损失进行联邦 LLM 训练。

关键设计

  1. PPMPR 协议 (Privacy-Preserving Multi-Party Reweighting)
  2. 做什么:在不暴露原始数据的前提下,让每个客户端获得其本地样本的全局出现频率
  3. 核心思路:将全局频率估计分解为 \(\binom{n}{2}\) 次两方安全计算 (Π₂PC)。每次 Π₂PC 中,两个客户端 \(P_i, P_j\) 通过 Private Set Intersection (PSI) 计算数据交集 \(\mathcal{I}\),然后交换交集中样本的局部频率
  4. 功能定义:\(f_{\text{PPMPR}}(X_1,...,X_n) \to (W_1,...,W_n)\),将各客户端数据映射为权重向量
  5. 设计动机:避免依赖可信第三方,每步只泄露交集信息和频率计数

  6. 并行编排策略 (Parallel Orchestration)

  7. 做什么:将顺序执行的 \(O(n^2)\) 次 Π₂PC 优化为并行执行
  8. 核心思路:利用二叉树结构的层级合并。在每一层,不重叠的客户端对可以并发执行 Π₂PC。通过构建配对矩阵 \(\mathcal{M}_k\),使用循环左移 \(\text{RotL}(\vec{b}, k)\) 生成不冲突的配对方案
  9. 复杂度:从 \(O(n^2)\) 降到 \(O(2^{\lceil\log_2 n\rceil} - 1)\),对 \(n=50\) 个客户端实现 4.09–28.78× 加速

  10. 频率感知加权训练

  11. 做什么:根据全局频率对训练样本的损失贡献进行加权
  12. 权重公式:\(\vec{\mathcal{W}} = \frac{1}{\ln(\vec{\mathcal{C}} + \vec{1}) + \vec{\varepsilon}}\),其中 \(\vec{\mathcal{C}}\) 为全局频率向量
  13. 加权损失:\(\mathcal{L}_{\text{batch}} = \frac{\sum_{i=1}^B \vec{\mathcal{W}}_i \cdot \ell_i^{(t)}}{\sum_{i=1}^B \vec{\mathcal{W}}_i}\)
  14. 设计动机:对数函数提供平滑的权重衰减,避免硬阈值导致的信息丢失;频繁样本被降权但不被完全排除,保留适度冗余有助于泛化

训练策略

模型更新仍使用标准 FedAvg 聚合,加权机制仅作用于 loss 层面,对训练框架无侵入性。

实验关键数据

主实验:GPT-2 Large, 30% 重复率

数据集 Raw Data Baseline (EP-MPD) FedRW 相对PPL改善
Haiku 3.26 2.89 2.56 11.42%
Rotten Tomatoes 2.65 2.21 1.61 27.15%
Short Jokes 4.11 3.79 3.15 16.89%
Sonnets 4.39 4.35 4.07 6.44%

预处理效率对比

客户端数量 EP-MPD 时间 PPMPR 时间 加速比
10 ~18s ~1s 17.61×
30 ~120s ~5s ~24×
50 ~300s ~10s 28.78×

消融:Non-IID 设置 (Qwen3-0.6B, Rotten Tomatoes)

配置 Baseline PPL FedRW PPL 说明
IID 1.71 1.59 标准设置
Quantity Skew 2.02 1.96 数据量不均衡
Label Skew 2.44 1.66 标签分布不均,改善最显著
Feature Skew 3.43 2.70 不同数据类型,仍稳定有效

关键发现

  • FedRW 在所有数据集和模型配置上一致优于硬去重基线
  • 在文学结构严格的数据集(Sonnets, Haiku)上改善更显著,说明冗余对结构化文本影响更大
  • 在 Non-IID 设置下(特别是 Label Skew),FedRW 的优势反而更大
  • 随模型规模增加效果更好:Qwen2.5-7B 上 Twitter 数据集相对改善达 26.57%

亮点与洞察

  • 软去重 vs 硬去重:核心创新在于用加权替代删除,对数反函数 \(1/\ln(freq+1)\) 是一个优雅的设计——高频样本被温和降权,适度冗余反而增强泛化
  • 无需可信第三方:纯两方 PSI 构建,安全性更强,部署更灵活
  • 并行编排:二叉树结构的客户端配对策略简洁高效,可直接复用到其他联邦安全计算场景

局限性 / 可改进方向

  • 仅验证了文本数据,未扩展到多模态联邦学习
  • 对数加权函数的选择缺乏理论最优性保证,可能存在更好的加权策略
  • PSI 协议是半诚实模型下的安全保证,未考虑恶意客户端场景
  • 重复模拟是人工注入的,和真实场景的自然冗余分布可能不同

相关工作与启发

  • vs EP-MPD (Abadi et al., 2024):EP-MPD 是硬去重 + 可信第三方,FedRW 是软去重 + 无第三方,在效率和效果上双重超越
  • vs SoftDedup / DoReMi:这些是集中式软去重方法,无法直接用于隐私联邦场景,FedRW 将软去重思路迁移到了联邦环境
  • vs FedAvg:FedRW 完全兼容 FedAvg 的聚合框架,只在 loss 层面加入加权,集成成本极低

评分

  • 新颖性: ⭐⭐⭐⭐ 首个联邦软去重框架,但核心技术(PSI + 加权损失)都是已有组件的组合
  • 实验充分度: ⭐⭐⭐⭐⭐ 涵盖多数据集、多模型(GPT-2到Qwen3/Llama)、多设置(IID/Non-IID)、效率和性能双评估
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,协议描述规范,但部分符号过于密集
  • 价值: ⭐⭐⭐⭐ 解决了联邦 LLM 训练中的实际痛点,框架设计通用性强