跳转至

Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation

会议: ACL 2026
arXiv: 2604.18663
代码: 无
领域: AI Safety / RAG Security
关键词: RAG攻击, 软失败, 对抗性文档, 进化优化, 可用性攻击

一句话总结

形式化定义 RAG 系统的"软失败"威胁(生成流畅但无信息量的回答),提出 DEJA 黑箱进化攻击框架,通过对抗性文档诱导模型利用安全对齐机制产生模棱两可的回答,SASR 超过 79% 且高度隐蔽。

研究背景与动机

领域现状: RAG 系统依赖外部语料库提升事实准确性,但这也创造了对语料库完整性的关键依赖。现有攻击研究主要关注知识投毒(诱导错误输出)和可用性攻击(诱导显式拒绝)。

现有痛点: 现有 jamming 攻击诱导的"硬失败"(如明确拒绝回答)过于明显,表现为可见的拒绝响应和异常文本统计特征(如高困惑度),容易被基于异常的防御检测到。

核心矛盾: 存在一种更隐蔽的威胁——"软失败":模型产生流畅、连贯但无实质信息的回答,既不会触发拒绝关键词检测,也不会产生困惑度异常,但实际上削弱了 RAG 的核心价值。

本文目标: 形式化定义软失败威胁,并开发自动化黑箱攻击框架来验证这一威胁的严重性。

切入角度: 利用 LLM 的安全对齐机制——对齐训练使模型在面对不确定性时倾向于"对冲",攻击者可制造人为模糊性来触发这种保守行为。

核心 idea: 对抗性文档分解为查询锚点 + 检索钩子 + 语义载荷,进化优化载荷使模型产生低效用但高流畅度的回答。

方法详解

整体框架

DEJA 将对抗性文档分解为 \(d_{adv} = q \oplus h_{hook} \oplus p_{payload}\)\(q\) 锚定目标查询确保检索命中,\(h_{hook}\) 确保高检索排名并提供语义桥接,\(p_{payload}\) 通过进化优化诱导低效用回答。框架分三步:上下文感知初始化 → 进化载荷优化 → 文档组装。

关键设计

  1. Answer Utility Score (AUS) 评估:

    • 功能:量化回答的信息效用,提供细粒度优化目标
    • 核心思路:基于 LLM 的评分函数,从三个维度评估——问题解决度(是否解决核心问题)、事实具体性(具体事实 vs 模糊泛化)、信息密度(新信息 vs 冗余背景)
    • 设计动机:先前攻击使用二元成功标准(关键词匹配/F1),无法捕捉软失败的语义层面降级
  2. 进化载荷优化:

    • 功能:在自然语言空间中迭代优化对抗性载荷
    • 核心思路:适应度函数 \(\mathcal{F}(p) = \frac{1}{\mathcal{D}(u) + \epsilon}\),其中 \(\mathcal{D}(u)\) 是到目标效用 \(\tau_{soft}\) 的非对称距离(严格惩罚高效用);四种语义操作符:微突变、语义交叉、创新突变、反馈修正
    • 设计动机:Token 级扰动产生脆弱伪影,LLM 驱动的语义操作符保持流畅性和连贯性
  3. 上下文感知攻击策略选择:

    • 功能:根据查询特征选择最佳攻击策略
    • 核心思路:从 6 种预定义策略中选择与查询最兼容的策略 \(s^* = \arg\max_{s_i} \text{Compatibility}(q, s_i)\),策略统一钩子和载荷的语义主题
    • 设计动机:不同类型查询适合不同的模糊化策略,统一策略确保文档内部一致性

损失函数 / 训练策略

无需模型训练。优化在自然语言空间中通过进化算法进行。攻击者仅需黑箱查询接口访问,无需模型参数/梯度。单个对抗性文档即可生效。

实验关键数据

主实验

指标 DEJA 先前最佳攻击
软失败攻击成功率 (SASR) >79% 显著更低
硬失败率 <15% 更高(显式拒绝)
困惑度检测逃逸 ✓ 通过 ✗ 被检测
查询改写鲁棒性 ✓ 鲁棒 -
跨模型可迁移性 ✓ 迁移至闭源模型 有限

消融实验

组件 效果
无策略选择 SASR 下降
无检索钩子 检索成功率大幅下降
随机载荷 vs 进化优化 进化优化 SASR 显著更高
不同 LLM 家族 跨模型迁移有效

关键发现

  • 软失败比硬失败更危险:用户可能将无信息回答归因于语料库不足而非攻击
  • DEJA 利用安全对齐机制——模型的"谨慎"行为被武器化
  • 单个对抗文档即可有效攻击,注入门槛极低
  • 现有困惑度和拒绝关键词检测完全无法识别软失败

亮点与洞察

  • "软失败"概念的形式化定义填补了 RAG 安全研究的空白
  • 揭示了安全对齐的双刃剑效应——对齐使模型更"谨慎"也更易被诱导为无用
  • AUS 评分框架可独立用于 RAG 响应质量评估
  • 三组件文档分解(锚点+钩子+载荷)是通用的对抗性文档构造方法论

局限与展望

  • 仅在英文数据集上评估
  • 进化优化需要多次查询目标系统,可能被速率限制
  • 防御方法(如效用检测)未充分探索
  • 对多文档检索场景的攻击效果需进一步验证
  • 研究目的是暴露漏洞以促进防御,而非提供攻击工具

相关工作与启发

  • PoisonedRAG(Zou et al., 2025):知识投毒攻击
  • Jamming Attack(Shafran et al., 2025):硬失败/拒绝攻击
  • LLM 进化优化(Fernando et al., 2023; Guo et al., 2025):LLM 驱动的搜索
  • 本文提醒安全研究社区关注"看起来正常但实质无用"的更隐蔽威胁

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 软失败概念新颖,揭示了安全对齐的意外漏洞
  • 实验充分度: ⭐⭐⭐⭐ 多配置、多基准、隐蔽性和鲁棒性分析充分
  • 写作质量: ⭐⭐⭐⭐ 威胁模型定义严谨,攻击流程清晰
  • 价值: ⭐⭐⭐⭐⭐ 对 RAG 安全研究有重要警示意义

相关论文