TR-PTS: Task-Relevant Parameter and Token Selection for Efficient Tuning¶

会议: ICCV 2025
arXiv: 2507.22872
代码: https://github.com/synbol/TR-PTS
领域: 模型压缩 / 参数高效微调
关键词: PEFT, Vision Transformer, Token Selection, Fisher Information Matrix, Parameter Selection

一句话总结¶

提出 TR-PTS 框架，通过 Fisher 信息矩阵进行任务驱动的逐层参数选择，同时利用 CLS 注意力分数动态筛选/合并 token，在仅微调 0.34%-0.60% 参数的情况下超越全量微调 3.40%（FGVC）和 10.35%（VTAB）。

研究背景与动机¶

大规模预训练 ViT 在下游视觉任务上表现优异，但全量微调代价高昂。现有参数高效微调（PEFT）方法存在三大问题：

推理开销：VPT 等方法引入额外可学习模块，导致推理时计算增加

缺乏任务感知：大多数方法对不同任务使用统一的调优策略，忽略不同层和参数对特定任务的重要性差异

参数与 token 优化脱节：已有工作将参数选择和 token 处理分开考虑，但 token 的信息量本身高度依赖于任务

作者观察到：不同任务依赖不同的 token 子集进行最终预测（图 2 可视化证实了这一点），因此需要一个统一框架同时完成任务相关的参数选择和 token 精炼。

方法详解¶

整体框架¶

TR-PTS 包含两个协同模块：Task-Relevant Parameter Selection 和 Task-Relevant Token Selection，二者通过联合优化实现互相增强。

关键设计¶

Task-Relevant Parameter Selection（基于 FIM 的逐层参数分配）:
- 利用 Fisher 信息矩阵（FIM）量化每个参数对任务的敏感度。FIM 通过交叉熵损失的梯度平方近似：\(\mathcal{F}(\theta) \approx \mathbb{E}_{(x,y)\sim D}\left[\left(\frac{\partial \mathcal{L}_{CE}}{\partial \theta}\right)^2\right]\)
- 选出 top-M% 高 FIM 值参数后，计算每层的贡献权重 \(w_l\)，再归一化得到每层神经元的可训练连接数 \(C_l = \max(1, \frac{w_l}{\min(w)} \cdot C_{\min})\)
- 每层内进一步按 FIM 分数选出每个神经元的 top-\(C_l\) 个连接作为可训练参数
- 设计动机：相比 GPS 使用的梯度幅值，FIM 不受优化噪声影响，能更准确反映参数对任务的重要性；逐层分配保证每层至少保留一个活跃连接，避免网络局部失活
Task-Relevant Token Selection（基于 CLS 注意力的动态 token 筛选与合并）:
- 利用 CLS token 对各 image token 的注意力分数 \(a_i\) 衡量 token 重要性
- 按选择率 \(\rho\) 保留 top-\(\lfloor\rho N\rfloor\) 个高注意力 token
- 未被选中的 token 并不丢弃，而是通过注意力加权平均合并为一个聚合 token：\(x_{\text{merged}} = \frac{\sum_{i\in\mathcal{I}} a_i x_i}{\sum_{i\in\mathcal{I}} a_i}\)
- 合并后的精炼序列为 \(X_{\text{refined}} = \{x_{\text{CLS}}, X_{\text{selected}}, x_{\text{merged}}\}\)
- 设计动机：结合了 token pruning（减少计算量）和 token merging（保留全局信息）的优势
参数-Token 协同选择策略:
- 关键发现：参数稀疏的层倾向于编码信息量较少的 token
- 因此将 token reduction 优先应用于参数稀疏层（"sparse insertion"策略）
- 用二值掩码 \(M\) 控制梯度更新：\(\Theta^{(t+1)} = \Theta^{(t)} - \eta(M \odot \nabla_\Theta \mathcal{L})\)

损失函数 / 训练策略¶

使用标准交叉熵损失训练
Adam 优化器 + cosine 学习率衰减，训练 100 个 epoch
骨干网络：ViT-B/16，预训练于 ImageNet-21K

实验关键数据¶

主实验¶

VTAB-1k 基准（19 个视觉分类任务）:

方法	Natural 均值	Specialized 均值	Structured 均值	总均值	参数量(%)
Full Fine-tuning	-	-	-	65.57	100.00
LoRA	-	-	-	72.63	0.90
GPS	-	-	-	75.18	0.25
TR-PTS	-	-	-	75.92	0.34

FGVC 基准（5 个细粒度分类数据集）:

方法	CUB-200	NABirds	Flowers	Dogs	Cars	均值	参数量(%)
Full	87.3	82.7	98.8	89.4	84.5	88.54	100.00
GPS	89.9	86.7	99.7	92.2	90.4	91.78	0.77
TR-PTS	90.0	87.1	99.6	92.4	90.6	91.94	0.60

消融实验¶

各组件贡献（VTAB-1k 子集）:

Token Selection	Parameter Selection	dSprites/loc	Flower102	Sun397
✗	✗	12.5	97.0	51.0
✓	✗	14.8	98.8	51.2
✗	✓	85.1	99.4	54.2
✓	✓	87.7	99.5	54.5

Token 选择位置策略对比:

策略	选择率	Sun397	Flower102	Loc	Camelyon
Dense	0.95	53.5	99.3	85.2	87.3
Random	0.95	54.0	99.3	85.9	87.9
Sparse	0.95	54.5	99.4	87.7	88.1

关键发现¶

TR-PTS 的 FLOPs 和推理内存消耗在所有 PEFT 方法中最低
不同任务的 FIM 关键参数层分布差异显著：Flower102 集中在 Block 8/10，Sun397 集中在 Block 0，Patch/Camelyon 分布均匀
不同任务间的参数选择集重叠率低（如 Sun397 vs Patch/Camelyon 仅 0.17），验证了任务自适应选择的必要性
Token 可视化显示：浅层保留较多 token，深层逐渐聚焦在前景目标上

亮点与洞察¶

参数与 token 联合优化的思路新颖，发现了"参数稀疏层→token 冗余度高"的内在关联，并据此设计协同策略
实验覆盖 24 个数据集，结果全面且强一致
不引入任何额外参数，训练和推理阶段均无额外开销
FIM 比梯度幅值更稳定地反映参数重要性

局限与展望¶

仅在分类任务上验证，尚未拓展到检测、分割等密集预测任务
Token 选择率 \(\rho\) 和最小连接数 \(C_{\min}\) 为超参，需手动调节
FIM 计算需要前向+反向传播，增加了初始化阶段的计算成本
未探索跨层自适应 token 选择率（当前各层使用固定 \(\rho\)）

评分¶

新颖性: ⭐⭐⭐⭐ — 参数与 token 联合选择框架、FIM 逐层分配策略有创意
实验充分度: ⭐⭐⭐⭐⭐ — 24 个数据集 + 多维度消融 + 计算开销分析
写作质量: ⭐⭐⭐⭐ — 层次清晰，图表丰富
价值: ⭐⭐⭐⭐ — 实用性强，PEFT 领域有参考价值