跳转至

FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts

会议: CVPR 2026
arXiv: 2603.12912
代码: GitHub
领域: 行人重识别 / 联邦学习 / 域泛化
关键词: 联邦学习, 行人重识别, 视觉提示, 域泛化, 通信高效, 身体部件对齐

一句话总结

提出 FedBPrompt,将可学习视觉提示分为身体部件对齐提示(受限局部注意力处理视角错位)和全身整体提示(抑制背景干扰),并设计仅传输提示参数(~0.46M vs. 全模型~86M)的联邦微调策略,在 FedDG-ReID 上取得一致性提升。

背景与动机

联邦域泛化行人重识别(FedDG-ReID)要求多客户端在不共享原始数据的前提下协作训练一个能泛化到未见目标域的全局模型。ViT 已成为 ReID 的主流骨干,但其全局注意力在 FedDG-ReID 场景下面临两个被客户端异构性放大的挑战:(1) 背景导致的注意力失焦——不同客户端部署在不同环境,背景分布高度异构,ViT 容易被主导但无关的背景信息误导,造成不同身份间的假匹配;(2) 视角导致的身体错位——不同客户端相机角度差异大,同一行人在不同视角下的身体部件严重错位,特征相似度急剧下降。现有 FedDG-ReID 方法多关注数据增强层面的多样性,未直接解决这两个模型层面的问题。

核心问题

如何在联邦分布式设置下,同时解决 ViT 注意力的背景失焦和跨客户端视角错位问题,且保持极低的通信开销?

方法详解

整体框架

FedBPrompt 包含两个核心组件:(1) 身体分布感知视觉提示机制(BAPM),在全参数训练模式下引导 ViT 注意力聚焦行人并对齐身体部件;(2) 基于提示的微调策略(PFTS),冻结骨干仅更新和传输提示参数,实现通信高效的联邦训练。

关键设计

  1. BAPM - 提示分区:在每个 Transformer 层注入 m 个可学习提示 token(实验中 m=50),分为两个功能组:(a) 身体部件对齐提示(15 个),均分为 P_upper/P_mid/P_lower 各 5 个,分别对应上/中/下半身;(b) 全身整体提示(35 个)P_full,关注行人整体外观。
  2. BAPM - 受限注意力掩码:通过结构化注意力掩码 M 强制执行功能分离。身体部件提示只能与对应空间区域的 image patch token 交互(如 P_upper 只关注图像上半部分),M_ij = -∞ 当 (q_i, k_j) 为不匹配的提示-patch 对。关键上,所有提示之间可以自由交互(M_ij = 0),使得部件提示可以建模结构关系,全身提示可以整合各部件信号形成全局上下文。区域定义上,上/中/下半身的 patch 索引集存在重叠(中间覆盖 1/4 到 3/4),确保身体部件间的平滑过渡。
  3. PFTS - 通信高效微调:先分发预训练好的无提示 ReID 模型,各客户端冻结骨干后植入随机初始化的提示参数,仅训练提示。每轮只上传提示参数(~0.46M),通过 FedAvg 聚合后下发,通信量降低至全模型的约 1%。

损失函数 / 训练策略

  • 损失函数采用标准 ReID 损失 L_ReID(交叉熵 + 三元组损失),作用于全局模型 g(x; Θ_b, Θ_p)
  • PFTS 模式下优化目标为 min_{Θ_p} Σ L_ReID,骨干参数 Θ_b 冻结
  • 联邦聚合采用加权平均 Θ_p^{t+1} = Σ (|D_k|/Σ|D_j|) · Θ_{p,k}^{t+1}
  • 骨干为 ViT-B/16,基于 SSCU 框架

实验关键数据

Protocol-1(Leave-One-Out,三个源域联邦训练,一个目标域测试)

方法 MS+C2+C3→M MS+C2+M→C3 C2+C3+M→MS 平均 mAP/R-1
SSCU (baseline) 46.3/69.6 33.7/33.4 20.0/43.7 33.3/48.9
SSCU+PFTS 48.9/72.4 35.5/35.8 21.3/46.0 35.2/51.4
SSCU+BAPM 49.1/73.4 37.4/38.4 23.4/49.5 36.6/53.8
FedProx+BAPM 47.3/70.9 33.7/33.7 17.7/41.2 32.9/48.6
DACS+BAPM 49.7/74.3 34.6/34.8 21.9/48.5 35.4/52.5
  • BAPM 对 SSCU 提升 +3.3% mAP / +4.9% R-1(平均);对弱基线 FedProx 提升可达 +13.9% mAP / +13.3% R-1
  • PFTS 仅传输 ~1% 参数,数轮聚合即可获得显著提升

消融实验要点

  • 仅全身提示 vs. 仅部件提示 vs. BAPM 全组合:全组合(BAPM)始终最优。以 SSCU 为基线,全身提示 mAP=48.4 → 部件提示 47.7 → BAPM 49.1,但在 C2+C3+M→MS 任务上部件提示 (22.7) 甚至优于全身提示 (22.9)/baseline (20.0),说明部件对齐在视角差异大的场景尤为关键
  • 注意力可视化:基线 ViT 注意力分散于背景;BAPM 下 P_upper/P_mid/P_lower 分别精确定位对应身体区域,P_full 覆盖全身轮廓
  • Insertion AUC 量化:BAPM > VPs > SSCU baseline(0.7559 > 0.7103 > 0.6160,class token 方式),验证注意力聚焦质量
  • t-SNE 特征空间:BAPM 使不同域的特征聚类更紧凑、域间分离更清晰

亮点 / 我学到了什么

  • 提示分区 + 受限注意力掩码是一种优雅的方式来为 ViT 注入空间先验——既不修改骨干结构,又能强制部件级特征对齐
  • 所有提示间允许自由交互的设计极为关键——这使得部件提示能建模结构关系而非孤立工作
  • 冻结骨干 + 仅传输提示(~0.46M vs. ~86M)对联邦通信的降低是压倒性的,且前几轮聚合就能见效
  • 从 VPT 到 BAPM 的跨越在于"有结构的提示设计"——不是简单地加 prompt token,而是赋予它们功能分区

局限性 / 可改进方向

  • 身体区域的划分方式较粗糙(上/中/下三段等分),依赖于行人图像已被裁剪对齐的假设
  • 在极端遮挡(只有半身)或异常姿态(蹲下、弯腰)下,固定的区域划分可能失效
  • 提示数量 50 是固定的,未探索自适应提示数量或动态剪枝
  • Protocol-1 仅用 4 个 ReID 数据集,缺少更大规模(如 LaST、PRCC)或跨模态场景验证
  • 与 LoRA、adapter 等其他参数高效方法的对比缺失

与相关工作的对比

  • vs. VPT (Jia et al., ECCV 2022):VPT 在 ViT 输入序列前拼接可学习 token 但无空间约束;BAPM 对提示进行功能分区并通过注意力掩码强制空间对应,针对性更强
  • vs. PromptFL (Guo et al., TMC 2023):PromptFL 将提示用于联邦高效通信但聚焦文本域;FedBPrompt 是首个将结构化视觉提示引入联邦 ReID 的工作
  • vs. SSCU (MM 2025):当前 FedDG-ReID SOTA,FedBPrompt 在其基础上通过 BAPM 平均提升 +3.3% mAP,且 PFTS 模式下通信开销降低 99%
  • vs. DACS (AAAI 2024):DACS 通过风格增强提升泛化,但不直接解决注意力失焦和身体错位;BAPM 与 DACS 正交互补,叠加后进一步提升

与我的研究方向的关联

  • 可能关联: 20260316_cross_species_framework.md
  • 可能关联: 20260316_nucleus_attention_vision_transformer.md
  • 可能关联: 20260316_process_aware_alignment.md

评分

  • 新颖性: 7/10 — 提示分区 + 受限注意力掩码的设计在联邦 ReID 中是新颖的,概念简洁但有效
  • 实验充分度: 8/10 — 两种协议、多基线、消融完整、可视化丰富;缺少大规模和跨模态验证
  • 写作质量: 7/10 — 结构清晰,方程、算法、可视化齐全
  • 价值: 7/10 — 即插即用地提升多种 FedDG-ReID 方法,且通信效率极高,实用价值显著