On the Robustness Tradeoff in Fine-Tuning¶

会议: ICCV 2025
arXiv: 2503.14836
代码: https://github.com/kyangl/robustness-finetuning (有)
领域: 其他/模型鲁棒性
关键词: 微调鲁棒性, 对抗鲁棒性, 参数高效微调, Pareto前沿, OOD鲁棒性

一句话总结¶

首次系统研究微调过程中对抗鲁棒性与准确率的权衡关系，在231个模型、7种微调策略和6个数据集上揭示：(1)微调初期鲁棒性先升后降；(2)不同PEFT策略和任务复杂度导致不同的Pareto前沿；(3)OOD鲁棒性不存在类似权衡而是紧跟准确率变化。

研究背景与动机¶

领域现状：预训练+微调已成为适配下游任务的标准范式。参数高效微调（PEFT）方法（LoRA、Adapter、BitFit等）通过更新极少量参数（0.07%-3.97%）即可达到与全量微调相当的精度。

现有痛点： - 微调对模型鲁棒性的影响几乎未被研究。已有工作主要关注从头训练的模型的鲁棒性-准确率权衡 - 从头训练的假设（训练数据和攻击数据同分布）在微调场景下不成立——微调涉及上游和下游两种不同的数据分布 - 现有PEFT鲁棒性研究仅关注最终模型状态，未追踪微调过程中鲁棒性的动态变化 - 对抗鲁棒性和OOD鲁棒性是否被相同因素驱动仍不清楚

核心矛盾：微调使模型从通用状态过渡到特化状态，学习到的robust和non-robust特征在不断变化。关键问题是：不同的PEFT策略更新不同位置和数量的参数，这如何影响鲁棒性-准确率的权衡？

本文目标：三个核心研究问题——(RQ1)微调中是否存在对抗鲁棒性-准确率权衡？(RQ2)不同微调策略和任务复杂度如何影响最优权衡？(RQ3)这些发现是否延伸到OOD鲁棒性？

切入角度：构建连续评估框架，在微调的每个反向传播步骤级别自适应追踪鲁棒性和准确率的变化，而非仅评估最终模型。

方法详解¶

整体框架¶

(1) 对预训练ViT-Base模型集成各种PEFT模块；(2) 在下游数据上微调时，按自适应调度在不同反向传播步骤持续评估模型的标准精度、对抗鲁棒性和OOD鲁棒性。

关键设计¶

理论动机——鲁棒性建模：
- 基于Ilyas et al.的特征模型：输入包含1个robust特征 \(x_1\) 和 \(d\) 个non-robust特征 \(x_{2:d+1} \sim \mathcal{N}(\eta y, 1)\)
- 微调分类器：\(f_{FT}(x) = \text{sign}((w_0 + \Delta w)^{\top}x)\)，其中 \(k = \|\Delta w\|_0\) 为更新参数数量
- 关键推导：要达99%准确率，non-robust特征的相关性下界为： \(\eta \geq \frac{2.33}{\sqrt{k+d}}\)
- 全量微调（\(k=d\)）时 \(\eta_{\text{full}} \geq \frac{2.33}{\sqrt{2d}}\)，下界放松，模型可利用更弱的non-robust特征→更易受攻击
- 任务越简单（\(d\) 越小），下界越紧，non-robust特征相关性需更高→更不易受攻击
PEFT方法分解（两维度）：
- 信息维度：提取什么信息（模型权重 vs 中间表示）和在哪里（注意力层、FFN、偏置）
- 机制维度：如何更新（神经层投影、矩阵/向量计算、直接反向传播）
- 7种策略：Full Fine-tuning, Linear Probing, LoRA（注意力矩阵低秩分解）, Adapter（插入小模块）, Compacter（Kronecker参数化Adapter）, BitFit（仅更新偏置）, (IA)³（缩放中间表示）
自适应追踪调度：
- 早期（0-700步）：每50步评估一次（捕获关键转变）
- 中期（700-3000步）：每1000步评估
- 后期（3000+步）：每6000步评估
- 对抗攻击使用PGD（\(\epsilon=1/255\), 步长\(\alpha=0.25/255\), 15步）
Pareto前沿与AUC指标：
- 提取鲁棒性-准确率空间中的Pareto最优点
- 计算Pareto前沿下方面积（AUC）作为权衡质量的标量度量

实验¶

主实验1：对抗鲁棒性-准确率权衡（RQ1）¶

以Caltech-256为例，所有7种微调方法均在~1000步内达到≈90%准确率，但对抗鲁棒性在~400步达到峰值≈25%后稳定下降到收敛时≈10%。权衡确实存在且在微调早期（前3个epoch）即显现。

主实验2：Pareto前沿AUC（不同策略×不同数据集）¶

方法	CIFAR-10	CIFAR-100	Caltech-256	CUB-200	Stanford Dogs
BitFit	0.21	0.10	0.33	0.14	0.08
Compacter	0.09	0.06	0.34	0.15	0.09
LoRA	0.14	0.07	0.23	0.12	0.06
Adapter	0.12	0.05	0.21	0.07	0.05
(IA)³	0.08	0.05	0.31	0.13	0.05
LP	0.06	0.03	0.24	0.08	0.02
Full FT	0.11	0.04	0.26	0.09	0.05

关键发现： - 简单任务（CIFAR-10/100）：BitFit最优（比平均高75%/81.5%），仅更新偏置即可有效适配 - 复杂任务（Caltech-256/CUB-200）：Compacter最优（比平均高57.5%/34.6%），注意力层的低秩参数化更好地平衡适配与鲁棒性继承 - Linear Probing和Full Fine-tuning在所有数据集上均表现最差

主实验3：OOD鲁棒性（RQ3）¶

指标	行为模式
OOD vs 对抗鲁棒性	OOD鲁棒性不存在与准确率的权衡，改善后稳定在较低水平
策略影响	Full FT最高(73%±2%), LP最低(61%±5%), PEFT方法间差异不大
训练域影响	与预训练分布接近的"real"域OOD鲁棒性反而较低(64%±5%)

关键发现总结¶

对抗鲁棒性-准确率权衡在微调中普遍存在，且在前3个epoch内即显现
更新注意力相关层（LoRA, Compacter）比仅更新外围参数（BitFit, LP）或全部参数（Full FT）在复杂任务上有更好的权衡
OOD鲁棒性与对抗鲁棒性有不同的驱动机制——前者取决于可迁移特征，后者取决于non-robust特征
任务复杂度（类间分离度、与上游数据的相似性）显著影响Pareto前沿的形状

亮点与洞察¶

首次系统研究微调鲁棒性：不是最终模型的一次性评估，而是在反向传播步骤级别持续追踪鲁棒性动态
PEFT分解框架：从信息提取维度和更新机制维度对PEFT方法进行了系统分解，建立了参数更新位置/方式与鲁棒性的联系
对抗 vs OOD鲁棒性的分离：清晰证明了两种鲁棒性由不同机制驱动，需要独立设计策略
理论-实验一致性：推导的下界 \(\eta \geq 2.33/\sqrt{k+d}\) 与实验中"全量微调鲁棒性最差"、"简单任务权衡更平缓"的发现一致

局限性¶

仅使用PGD攻击评估对抗鲁棒性，未考虑AutoAttack等更强攻击或自适应攻击
主要基于ViT-Base，未涵盖CNN-ViT混合模型或更大规模模型
未考虑对抗训练等防御机制下的鲁棒性变化
实验规模虽大但数据集仍以中等规模为主（10k-60k），大规模数据集（Places365, 1.8M）上模型性能不足以得出可靠结论

评分¶

创新性：★★★★☆（系统性实验研究而非方法创新，但PEFT分解和连续追踪框架新颖）
实验充分度：★★★★★（231模型×7策略×6数据集，~2100对抗+~2000 OOD评估，消融充分）
实用价值：★★★★☆（为选择微调策略提供了实用指导：简单任务用BitFit，复杂任务用Compacter）
写作质量：★★★★★（研究问题清晰，理论-实验呼应，图表信息丰富）