跳转至

AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness

会议: NeurIPS 2025
arXiv: 2511.09316
代码: 无
领域: AI安全 / 认证鲁棒性 / NLP
关键词: certified robustness, randomized smoothing, edit distance, deletion mechanism, sequence classification

一句话总结

提出AdaptDel方法,将随机平滑(randomized smoothing)中的固定删除率扩展为自适应删除率,根据输入长度等属性动态调整删除概率,在编辑距离攻击下实现认证鲁棒性的巨大提升(认证区域基数提升最高30个数量级)。

背景与动机

序列分类任务(如NLP中的文本分类)面临编辑距离对抗攻击的威胁。随机平滑是一种提供可证明鲁棒性保证的方法——通过在输入上添加随机扰动并对多次预测取多数投票来平滑分类器。对于离散序列,常用的扰动方式是随机删除token。但现有方法使用固定删除率,对长短不一的输入一视同仁。短文本删除太多会丢失所有信息,长文本删除太少则鲁棒性不足。

核心问题

如何将随机平滑的删除率从固定值变为根据输入属性(如长度)自适应调整的变量,同时保持认证的理论正确性?

方法详解

整体框架

扩展随机平滑的理论框架以支持可变删除率,将删除率设计为输入属性(如序列长度)的函数,通过数学证明保证认证的有效性。

关键设计

  1. 可变删除率理论扩展:将固定删除率的随机平滑理论推广到输入依赖的删除率,证明在可变率下认证仍然是sound的
  2. 自适应删除率函数:根据输入长度等属性设计删除率——短序列用低删除率保留信息,长序列用高删除率增强鲁棒性
  3. 编辑距离认证:针对编辑距离(插入、删除、替换)攻击的认证区域计算

实验关键数据

  • 任务: NLP序列分类
  • 关键结果: 认证区域基数(即在保持正确分类不变的前提下允许的最大编辑次数)提升最高30个数量级
  • SOTA认证方法相比显著改善

消融实验要点

  • 自适应率 vs 固定率的对比
  • 不同自适应策略(基于长度、基于其他属性)的比较

亮点

  • 巨大的定量改善:30个数量级的提升不是增量改善,而是质变
  • 理论严谨:证明了可变删除率下认证的soundness
  • 根本洞察:固定删除率对变长输入是次优的——这一观察虽然自然,但之前未被严格解决
  • 实用性:自然语言的句子长度天然变化很大,自适应删除率直接解决这一实际需求

局限性 / 可改进方向

  • 自适应策略的设计(如删除率关于长度的函数形式)可能需要针对不同任务调整
  • 认证的计算开销随输入长度和采样次数增长
  • 仅在NLP序列分类上验证,其他模态(如音频序列)待探索

与相关工作的对比

  • vs 固定率随机平滑:AdaptDel是固定率方法的严格推广,在变长输入上大幅优越
  • vs 其他认证方法(IBP、CROWN等):这些方法通常针对连续空间/神经网络层;AdaptDel针对离散序列的编辑距离

评分

  • 新颖性: ⭐⭐⭐⭐ 自适应删除率是自然但之前未被形式化的扩展
  • 实验充分度: ⭐⭐⭐ 摘要信息有限,详细实验数据缺失
  • 写作质量: ⭐⭐⭐ 摘要清晰(33页camera-ready版本)
  • 价值: ⭐⭐⭐⭐ 对NLP对抗鲁棒性领域的认证方法有重要贡献