Curvature Tuning: Provable Training-free Model Steering From a Single Parameter¶

会议: NeurIPS 2025 arXiv: 2502.07783 代码: GitHub 领域: model_compression 关键词: 曲率调节, 激活函数, 样条理论, 参数高效微调, 决策边界

一句话总结¶

提出 Curvature Tuning（CT），通过在激活函数中注入单个超参数 \(\beta\) 来可证明地调节模型决策边界的曲率，无需修改权重即可提升泛化和鲁棒性，同时作为微调方法参数量远少于 LoRA rank 1。

研究背景与动机¶

现有参数高效微调（PEFT）方法（如 LoRA、Adapter 等）均聚焦于权重适配——引入或更新权重参数。然而它们普遍缺乏可解释性，依赖于启发式超参数选择（如 LoRA 的秩、放置位置、初始化等），缺少理论指导。一个被忽视的关键组件是激活函数——它决定了模型的非线性和表达能力。

本文的核心观察：将深度网络视为仿射样条算子，现有微调方法调节的是样条的斜率和断点，而调节激活函数则改变了模型的底层几何结构（即决策边界的曲率）。

方法详解¶

整体框架¶

CT 基于深度网络的样条解释：ReLU 网络等价于 max-affine spline 算子。CT 通过将硬性区域选择（one-hot）替换为软性概率选择来平滑决策边界，提供两种实现： - S-CT（Steering CT）：仅引入一个全局超参数 \(\beta\)，无需训练 - T-CT（Trainable CT）：为每个神经元分配独立的可训练 \((\beta, c)\) 对

关键设计¶

CT Unit（CTU）激活函数：

\[\varphi_{\beta,c}(\mathbf{x}) = c \cdot \sigma\left(\frac{\beta \mathbf{x}}{1-\beta}\right) \cdot \mathbf{x} + (1-c) \cdot \ln\left[1 + \exp\left(\frac{\mathbf{x}}{1-\beta}\right)\right] \cdot (1-\beta)\]

其中 \(\beta \in [0,1]\) 调节曲率，\(c \in [0,1]\) 为混合系数，\(\sigma(\cdot)\) 为 sigmoid。这是重参数化 SiLU 和 Softplus 的凸组合：

\[\text{SiLU}(\mathbf{x}) = \sigma(\eta \mathbf{x}) \cdot \mathbf{x}, \quad \eta = \frac{\beta}{1-\beta}\]

\[\text{Softplus}(\mathbf{x}) = \frac{1}{\gamma} \cdot \ln[1 + \exp(\gamma \mathbf{x})], \quad \gamma = \frac{1}{1-\beta}\]

CTU 自然涵盖 SiLU（\(c=1\)）、Softplus（\(c=0\)）和 GELU 近似（\(c=1, \beta=0.64\)）。

\(\beta\)-VQ 推理框架：将 max-affine spline 的硬选择替换为基于熵正则化的软选择，最优解为 softmax 形式：

\[\mathbf{t}_r^\beta = \frac{\exp\left(\frac{\beta(\langle \mathbf{A}_{r,\cdot}, \mathbf{x}\rangle + \mathbf{b}_r)}{1-\beta}\right)}{\sum_{i=1}^R \exp\left(\frac{\beta(\langle \mathbf{A}_{i,\cdot}, \mathbf{x}\rangle + \mathbf{b}_i)}{1-\beta}\right)}\]

损失函数¶

S-CT 无训练损失（仅做 \(\beta\) 网格搜索）。T-CT 使用标准交叉熵损失训练每层的 \((\beta, c)\) 参数，冻结所有原始权重。

理论保证（Theorem 3.1）：对 ReLU 网络 \(f\)，用 CTU 替换 ReLU（固定 \(\beta \in [0,1)\)）等价于将 \(f\) 投影到一个光滑函数空间，保持梯度和曲率有界，同时对相同参数 \(\mathbf{W}\) 具有更高的局部表达能力。

实验关键数据¶

主实验¶

下游迁移精度（ImageNet 预训练 ResNet，12 个数据集平均准确率 %）：

方法	可训练参数	ResNet-18	ResNet-50
Frozen (LP)	0	73.96	76.24
S-CT	1	75.34	76.92
LoRA (r=1)	35K-79K	73.64	78.68
T-CT	4K-45K	78.26	81.31

T-CT 相比 LP 提升 8.59%/8.34%（ResNet-50/152），相比 LoRA(r=1) 提升 4.64%/1.70%，参数量仅为 LoRA 的 11%-59%。

对抗鲁棒性（RobustBench \(\ell_\infty\) 攻击）：

模型	数据集	Frozen	S-CT	最优 \(\beta\)
ResNet-18	CIFAR-10	11.17%	14.93%	0.90
ResNet-18	CIFAR-100	4.47%	6.90%	0.92
ResNet-18	ImageNet	0.00%	7.00%	0.89

S-CT 无需对抗训练即可显著提升鲁棒性。

消融实验¶

S-CT 最优 \(\beta\) 接近 1（ResNet-50: 0.94, ResNet-152: 0.96），搜索范围可缩窄
\(c=0.5\)（CTU）优于纯 SiLU（\(c=1\)）和纯 Softplus（\(c=0\)）
T-CT 学到的 \(\beta\) 值呈 U 型分布（集中在 0 和 1 附近），\(c\) 值类似，有效均值接近 S-CT 的手选值
与 LoRA rank 1/2/4 的完整对比：T-CT 在 ResNet-18/50 上仍优于 LoRA 所有 rank

关键发现¶

调节激活函数曲率和调节权重（LoRA）是正交互补的模型改进维度
\(\beta \to 0\) 使网络变为线性映射（曲率为零），\(\beta \to 1\) 恢复原 ReLU；中间值提供最优平衡
鲁棒性提升是 CT 的隐式偏置，无需对抗训练目标

亮点与洞察¶

理论驱动的 PEFT：基于样条理论的可证明保证，不同于现有 PEFT 的启发式设计
极致参数效率：S-CT 仅 1 个超参数，T-CT 参数量不到 LoRA(r=1) 的 60%
与 LoRA 互补而非替代：CT 调节函数空间，LoRA 调节特征空间
CTU 设计兼容 ReLU、SiLU、GELU、Softplus 等多种激活函数

局限性¶

理论保证严格成立于分段仿射网络（ReLU/MaxPool），对 Transformer 中 GELU/SiLU 仅有部分保证
S-CT 需要 \(\beta\) 网格搜索（0.7-1.0 范围，步长 0.01），虽然开销低但非完全自动
鲁棒性提升在某些设置下有限（如 ResNet-152 CIFAR 上 \(\ell_2\) 几乎无改善）

评分¶

⭐ 新颖性: 5/5 — 全新的 PEFT 视角，理论-实验结合紧密
⭐ 实验充分度: 5/5 — 6 个模型 x 12 数据集 x 泛化/鲁棒性双重验证
⭐ 写作质量: 4/5 — 数学推导详尽但部分符号较重
⭐ 价值: 5/5 — 开辟了激活函数调节作为 PEFT 的新范式