Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation¶

会议: ACL 2026
arXiv: 2604.18663
代码: 无
领域: AI Safety / RAG Security
关键词: RAG攻击, 软失败, 对抗性文档, 进化优化, 可用性攻击

一句话总结¶

形式化定义 RAG 系统的"软失败"威胁（生成流畅但无信息量的回答），提出 DEJA 黑箱进化攻击框架，通过对抗性文档诱导模型利用安全对齐机制产生模棱两可的回答，SASR 超过 79% 且高度隐蔽。

研究背景与动机¶

领域现状: RAG 系统依赖外部语料库提升事实准确性，但这也创造了对语料库完整性的关键依赖。现有攻击研究主要关注知识投毒（诱导错误输出）和可用性攻击（诱导显式拒绝）。

现有痛点: 现有 jamming 攻击诱导的"硬失败"（如明确拒绝回答）过于明显，表现为可见的拒绝响应和异常文本统计特征（如高困惑度），容易被基于异常的防御检测到。

核心矛盾: 存在一种更隐蔽的威胁——"软失败"：模型产生流畅、连贯但无实质信息的回答，既不会触发拒绝关键词检测，也不会产生困惑度异常，但实际上削弱了 RAG 的核心价值。

本文目标: 形式化定义软失败威胁，并开发自动化黑箱攻击框架来验证这一威胁的严重性。

切入角度: 利用 LLM 的安全对齐机制——对齐训练使模型在面对不确定性时倾向于"对冲"，攻击者可制造人为模糊性来触发这种保守行为。

核心 idea: 对抗性文档分解为查询锚点 + 检索钩子 + 语义载荷，进化优化载荷使模型产生低效用但高流畅度的回答。

方法详解¶

整体框架¶

DEJA 将对抗性文档分解为 \(d_{adv} = q \oplus h_{hook} \oplus p_{payload}\)：\(q\) 锚定目标查询确保检索命中，\(h_{hook}\) 确保高检索排名并提供语义桥接，\(p_{payload}\) 通过进化优化诱导低效用回答。框架分三步：上下文感知初始化 → 进化载荷优化 → 文档组装。

关键设计¶

Answer Utility Score (AUS) 评估:
- 功能：量化回答的信息效用，提供细粒度优化目标
- 核心思路：基于 LLM 的评分函数，从三个维度评估——问题解决度（是否解决核心问题）、事实具体性（具体事实 vs 模糊泛化）、信息密度（新信息 vs 冗余背景）
- 设计动机：先前攻击使用二元成功标准（关键词匹配/F1），无法捕捉软失败的语义层面降级
进化载荷优化:
- 功能：在自然语言空间中迭代优化对抗性载荷
- 核心思路：适应度函数 \(\mathcal{F}(p) = \frac{1}{\mathcal{D}(u) + \epsilon}\)，其中 \(\mathcal{D}(u)\) 是到目标效用 \(\tau_{soft}\) 的非对称距离（严格惩罚高效用）；四种语义操作符：微突变、语义交叉、创新突变、反馈修正
- 设计动机：Token 级扰动产生脆弱伪影，LLM 驱动的语义操作符保持流畅性和连贯性
上下文感知攻击策略选择:
- 功能：根据查询特征选择最佳攻击策略
- 核心思路：从 6 种预定义策略中选择与查询最兼容的策略 \(s^* = \arg\max_{s_i} \text{Compatibility}(q, s_i)\)，策略统一钩子和载荷的语义主题
- 设计动机：不同类型查询适合不同的模糊化策略，统一策略确保文档内部一致性

损失函数 / 训练策略¶

无需模型训练。优化在自然语言空间中通过进化算法进行。攻击者仅需黑箱查询接口访问，无需模型参数/梯度。单个对抗性文档即可生效。

实验关键数据¶

主实验¶

指标	DEJA	先前最佳攻击
软失败攻击成功率 (SASR)	>79%	显著更低
硬失败率	<15%	更高（显式拒绝）
困惑度检测逃逸	✓ 通过	✗ 被检测
查询改写鲁棒性	✓ 鲁棒	-
跨模型可迁移性	✓ 迁移至闭源模型	有限

消融实验¶

组件	效果
无策略选择	SASR 下降
无检索钩子	检索成功率大幅下降
随机载荷 vs 进化优化	进化优化 SASR 显著更高
不同 LLM 家族	跨模型迁移有效

关键发现¶

软失败比硬失败更危险：用户可能将无信息回答归因于语料库不足而非攻击
DEJA 利用安全对齐机制——模型的"谨慎"行为被武器化
单个对抗文档即可有效攻击，注入门槛极低
现有困惑度和拒绝关键词检测完全无法识别软失败

亮点与洞察¶

"软失败"概念的形式化定义填补了 RAG 安全研究的空白
揭示了安全对齐的双刃剑效应——对齐使模型更"谨慎"也更易被诱导为无用
AUS 评分框架可独立用于 RAG 响应质量评估
三组件文档分解（锚点+钩子+载荷）是通用的对抗性文档构造方法论

局限与展望¶

仅在英文数据集上评估
进化优化需要多次查询目标系统，可能被速率限制
防御方法（如效用检测）未充分探索
对多文档检索场景的攻击效果需进一步验证
研究目的是暴露漏洞以促进防御，而非提供攻击工具

评分¶

新颖性: ⭐⭐⭐⭐⭐ 软失败概念新颖，揭示了安全对齐的意外漏洞
实验充分度: ⭐⭐⭐⭐ 多配置、多基准、隐蔽性和鲁棒性分析充分
写作质量: ⭐⭐⭐⭐ 威胁模型定义严谨，攻击流程清晰
价值: ⭐⭐⭐⭐⭐ 对 RAG 安全研究有重要警示意义