Beyond Explicit Refusals: Soft-Failure Attacks on Retrieval-Augmented Generation¶
会议: ACL 2026
arXiv: 2604.18663
代码: 无
领域: AI Safety / RAG Security
关键词: RAG攻击, 软失败, 对抗性文档, 进化优化, 可用性攻击
一句话总结¶
形式化定义 RAG 系统的"软失败"威胁(生成流畅但无信息量的回答),提出 DEJA 黑箱进化攻击框架,通过对抗性文档诱导模型利用安全对齐机制产生模棱两可的回答,SASR 超过 79% 且高度隐蔽。
研究背景与动机¶
领域现状: RAG 系统依赖外部语料库提升事实准确性,但这也创造了对语料库完整性的关键依赖。现有攻击研究主要关注知识投毒(诱导错误输出)和可用性攻击(诱导显式拒绝)。
现有痛点: 现有 jamming 攻击诱导的"硬失败"(如明确拒绝回答)过于明显,表现为可见的拒绝响应和异常文本统计特征(如高困惑度),容易被基于异常的防御检测到。
核心矛盾: 存在一种更隐蔽的威胁——"软失败":模型产生流畅、连贯但无实质信息的回答,既不会触发拒绝关键词检测,也不会产生困惑度异常,但实际上削弱了 RAG 的核心价值。
本文目标: 形式化定义软失败威胁,并开发自动化黑箱攻击框架来验证这一威胁的严重性。
切入角度: 利用 LLM 的安全对齐机制——对齐训练使模型在面对不确定性时倾向于"对冲",攻击者可制造人为模糊性来触发这种保守行为。
核心 idea: 对抗性文档分解为查询锚点 + 检索钩子 + 语义载荷,进化优化载荷使模型产生低效用但高流畅度的回答。
方法详解¶
整体框架¶
DEJA 将对抗性文档分解为 \(d_{adv} = q \oplus h_{hook} \oplus p_{payload}\):\(q\) 锚定目标查询确保检索命中,\(h_{hook}\) 确保高检索排名并提供语义桥接,\(p_{payload}\) 通过进化优化诱导低效用回答。框架分三步:上下文感知初始化 → 进化载荷优化 → 文档组装。
关键设计¶
-
Answer Utility Score (AUS) 评估:
- 功能:量化回答的信息效用,提供细粒度优化目标
- 核心思路:基于 LLM 的评分函数,从三个维度评估——问题解决度(是否解决核心问题)、事实具体性(具体事实 vs 模糊泛化)、信息密度(新信息 vs 冗余背景)
- 设计动机:先前攻击使用二元成功标准(关键词匹配/F1),无法捕捉软失败的语义层面降级
-
进化载荷优化:
- 功能:在自然语言空间中迭代优化对抗性载荷
- 核心思路:适应度函数 \(\mathcal{F}(p) = \frac{1}{\mathcal{D}(u) + \epsilon}\),其中 \(\mathcal{D}(u)\) 是到目标效用 \(\tau_{soft}\) 的非对称距离(严格惩罚高效用);四种语义操作符:微突变、语义交叉、创新突变、反馈修正
- 设计动机:Token 级扰动产生脆弱伪影,LLM 驱动的语义操作符保持流畅性和连贯性
-
上下文感知攻击策略选择:
- 功能:根据查询特征选择最佳攻击策略
- 核心思路:从 6 种预定义策略中选择与查询最兼容的策略 \(s^* = \arg\max_{s_i} \text{Compatibility}(q, s_i)\),策略统一钩子和载荷的语义主题
- 设计动机:不同类型查询适合不同的模糊化策略,统一策略确保文档内部一致性
损失函数 / 训练策略¶
无需模型训练。优化在自然语言空间中通过进化算法进行。攻击者仅需黑箱查询接口访问,无需模型参数/梯度。单个对抗性文档即可生效。
实验关键数据¶
主实验¶
| 指标 | DEJA | 先前最佳攻击 |
|---|---|---|
| 软失败攻击成功率 (SASR) | >79% | 显著更低 |
| 硬失败率 | <15% | 更高(显式拒绝) |
| 困惑度检测逃逸 | ✓ 通过 | ✗ 被检测 |
| 查询改写鲁棒性 | ✓ 鲁棒 | - |
| 跨模型可迁移性 | ✓ 迁移至闭源模型 | 有限 |
消融实验¶
| 组件 | 效果 |
|---|---|
| 无策略选择 | SASR 下降 |
| 无检索钩子 | 检索成功率大幅下降 |
| 随机载荷 vs 进化优化 | 进化优化 SASR 显著更高 |
| 不同 LLM 家族 | 跨模型迁移有效 |
关键发现¶
- 软失败比硬失败更危险:用户可能将无信息回答归因于语料库不足而非攻击
- DEJA 利用安全对齐机制——模型的"谨慎"行为被武器化
- 单个对抗文档即可有效攻击,注入门槛极低
- 现有困惑度和拒绝关键词检测完全无法识别软失败
亮点与洞察¶
- "软失败"概念的形式化定义填补了 RAG 安全研究的空白
- 揭示了安全对齐的双刃剑效应——对齐使模型更"谨慎"也更易被诱导为无用
- AUS 评分框架可独立用于 RAG 响应质量评估
- 三组件文档分解(锚点+钩子+载荷)是通用的对抗性文档构造方法论
局限与展望¶
- 仅在英文数据集上评估
- 进化优化需要多次查询目标系统,可能被速率限制
- 防御方法(如效用检测)未充分探索
- 对多文档检索场景的攻击效果需进一步验证
- 研究目的是暴露漏洞以促进防御,而非提供攻击工具
相关工作与启发¶
- PoisonedRAG(Zou et al., 2025):知识投毒攻击
- Jamming Attack(Shafran et al., 2025):硬失败/拒绝攻击
- LLM 进化优化(Fernando et al., 2023; Guo et al., 2025):LLM 驱动的搜索
- 本文提醒安全研究社区关注"看起来正常但实质无用"的更隐蔽威胁
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 软失败概念新颖,揭示了安全对齐的意外漏洞
- 实验充分度: ⭐⭐⭐⭐ 多配置、多基准、隐蔽性和鲁棒性分析充分
- 写作质量: ⭐⭐⭐⭐ 威胁模型定义严谨,攻击流程清晰
- 价值: ⭐⭐⭐⭐⭐ 对 RAG 安全研究有重要警示意义
相关论文¶
- [ACL 2025] WavRAG: Audio-Integrated Retrieval Augmented Generation for Spoken Dialogue Models
- [ACL 2026] Beyond Transcription: Unified Audio Schema for Perception-Aware AudioLLMs
- [AAAI 2026] Hearing More with Less: Multi-Modal Retrieval-and-Selection Augmented Conversational LLM-Based ASR
- [CVPR 2026] OmniRet: Efficient and High-Fidelity Omni Modality Retrieval
- [NeurIPS 2025] A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity