LipNeXt: Scaling up Lipschitz-based Certified Robustness to Billion-parameter Models¶

会议: ICLR 2026
arXiv: 2601.18513
代码: 无
领域: AI安全 / 认证鲁棒性
关键词: Lipschitz network, certified robustness, manifold optimization, spatial shift, orthogonal matrix

一句话总结¶

提出 LipNeXt——首个无约束、无卷积的 1-Lipschitz 架构，通过流形优化（直接在正交流形上更新）和 Spatial Shift Module（理论证明唯一保范 depthwise 卷积是 ±1 位移）突破 Lipschitz 网络的 scaling 瓶颈，首次将认证鲁棒性扩展到 10 亿参数，在 CIFAR-10/100/ImageNet 上达 SOTA 认证鲁棒准确率。

研究背景与动机¶

领域现状：Lipschitz 认证提供确定性的鲁棒性保证（对任意扰动），比随机平滑更严格，但现有架构仅限于 <32M 参数的 VGG 变体。
现有痛点：(a) 正交矩阵优化是瓶颈——重参数化（Cayley 等）计算开销大 (b) 基于 FFT 的正交卷积更慢 (c) 模型 >64M 后性能饱和。
核心矛盾：Lipschitz 约束要求所有层的 Lipschitz 常数 ≤ 1，正交矩阵是实现这一点的核心，但正交约束严重限制了模型可扩展性。
本文要解决什么？ 如何在保持 1-Lipschitz 约束的同时将模型扩展到数十亿参数？
切入角度：(1) 在正交流形上直接优化（避免约束投影）(2) 用 Spatial Shift 替代卷积。
核心idea一句话：流形优化 + 位移模块 = 无约束+无卷积的 1-Lipschitz 架构，可扩展到 1-2B。

方法详解¶

整体框架¶

LipNeXt = Manifold Optimization（高效正交更新）+ Spatial Shift Module（无卷积空间混合）+ β-Abs 非线性。

关键设计¶

流形优化：
直接在正交流形 \(\mathcal{M}_d\) 上更新参数，用 Riemannian 梯度 + 指数映射保持正交性。
FastExp 加速：根据 \(\|A\|_F\) 自适应截断 Taylor 展开（<0.05 用 2 阶，≥1 用完整矩阵指数）。
每 epoch 极坐标回缩（SVD）+ Lookahead 切空间插值维持稳定性。
Spatial Shift Module：
Theorem 1 证明：唯一的保范 depthwise 卷积是 ±1 位移。
三分区位移（右/左/不动）+ 循环 padding + 位置编码。
\(Y = R^\top \mathcal{S}(R(X+p))\)，\(R\) 为正交投影。
完全消除卷积运算。
β-Abs 非线性：前 βd 个通道取绝对值，其余保持恒等。梯度友好且保范。

实验关键数据¶

CIFAR-10 认证鲁棒准确率 (CRA)¶

方法	参数	Clean Acc	CRA@36/255	CRA@72/255	CRA@108/255
Prior SOTA (BRONet)	68M	81.6%	70.6%	57.2%	42.5%
LipNeXt	64M	81.5%	71.2%	59.2%	45.9%

ImageNet 扩展¶

LipNeXt 1-2B：CRA@ε=1 提升 +8% 相对于先前 Lipschitz 方法。
首次在 ImageNet 上展示 Lipschitz 网络的 non-saturating scaling。

关键发现¶

先前方法在 ~64M 参数后 CRA 饱和，LipNeXt 持续提升到 1-2B。
Spatial Shift 不仅理论上唯一保范，实践中也比 FFT 卷积快且更稳定。
支持低精度训练（更高效的 GPU 利用）。

亮点与洞察¶

Theorem 1 的优雅：证明保范 depthwise 卷积的唯一形式是位移——从根本上消除了卷积在 Lipschitz 网络中的必要性。
流形优化的实用性：5 次矩阵乘法/更新 + FastExp 近似，使得正交约束不再是 scaling 瓶颈。

局限性 / 可改进方向¶

仅在视觉任务验证，NLP/LLM 的 Lipschitz 认证未涉及。
training 稳定性依赖每 epoch SVD 回缩和 Lookahead，增加工程复杂度。
1-2B 模型的训练成本未详细报告。

评分¶

新颖性: ⭐⭐⭐⭐⭐ Spatial Shift 的理论结果和流形优化方案原创性高
实验充分度: ⭐⭐⭐⭐ CIFAR-10/100 + Tiny-ImageNet + ImageNet，多尺度验证
写作质量: ⭐⭐⭐⭐ 理论严谨
价值: ⭐⭐⭐⭐⭐ 突破 Lipschitz 网络 scaling 瓶颈是里程碑级贡献