AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness¶

会议: NeurIPS 2025
arXiv: 2511.09316
代码: 无
领域: AI安全 / 认证鲁棒性 / NLP
关键词: certified robustness, randomized smoothing, edit distance, deletion mechanism, sequence classification

一句话总结¶

提出AdaptDel方法，将随机平滑(randomized smoothing)中的固定删除率扩展为自适应删除率，根据输入长度等属性动态调整删除概率，在编辑距离攻击下实现认证鲁棒性的巨大提升（认证区域基数提升最高30个数量级）。

背景与动机¶

序列分类任务（如NLP中的文本分类）面临编辑距离对抗攻击的威胁。随机平滑是一种提供可证明鲁棒性保证的方法——通过在输入上添加随机扰动并对多次预测取多数投票来平滑分类器。对于离散序列，常用的扰动方式是随机删除token。但现有方法使用固定删除率，对长短不一的输入一视同仁。短文本删除太多会丢失所有信息，长文本删除太少则鲁棒性不足。

核心问题¶

如何将随机平滑的删除率从固定值变为根据输入属性（如长度）自适应调整的变量，同时保持认证的理论正确性？

方法详解¶

整体框架¶

扩展随机平滑的理论框架以支持可变删除率，将删除率设计为输入属性（如序列长度）的函数，通过数学证明保证认证的有效性。

关键设计¶

可变删除率理论扩展：将固定删除率的随机平滑理论推广到输入依赖的删除率，证明在可变率下认证仍然是sound的
自适应删除率函数：根据输入长度等属性设计删除率——短序列用低删除率保留信息，长序列用高删除率增强鲁棒性
编辑距离认证：针对编辑距离（插入、删除、替换）攻击的认证区域计算

实验关键数据¶

任务: NLP序列分类
关键结果: 认证区域基数（即在保持正确分类不变的前提下允许的最大编辑次数）提升最高30个数量级
SOTA认证方法相比显著改善

消融实验要点¶

自适应率 vs 固定率的对比
不同自适应策略（基于长度、基于其他属性）的比较

亮点¶

巨大的定量改善：30个数量级的提升不是增量改善，而是质变
理论严谨：证明了可变删除率下认证的soundness
根本洞察：固定删除率对变长输入是次优的——这一观察虽然自然，但之前未被严格解决
实用性：自然语言的句子长度天然变化很大，自适应删除率直接解决这一实际需求

局限性 / 可改进方向¶

自适应策略的设计（如删除率关于长度的函数形式）可能需要针对不同任务调整
认证的计算开销随输入长度和采样次数增长
仅在NLP序列分类上验证，其他模态（如音频序列）待探索

与相关工作的对比¶

vs 固定率随机平滑：AdaptDel是固定率方法的严格推广，在变长输入上大幅优越
vs 其他认证方法（IBP、CROWN等）：这些方法通常针对连续空间/神经网络层；AdaptDel针对离散序列的编辑距离

评分¶

新颖性: ⭐⭐⭐⭐ 自适应删除率是自然但之前未被形式化的扩展
实验充分度: ⭐⭐⭐ 摘要信息有限，详细实验数据缺失
写作质量: ⭐⭐⭐ 摘要清晰（33页camera-ready版本）
价值: ⭐⭐⭐⭐ 对NLP对抗鲁棒性领域的认证方法有重要贡献