LLMs Can Be Easily Confused by Instructional Distractions¶

会议: ACL 2025
arXiv: 2502.04362
代码: 无
领域: NLP理解 / 指令跟随
关键词: 指令干扰, 指令跟随鲁棒性, DIM-Bench, 数据处理任务, 输入混淆

一句话总结¶

本文发现 LLM 在处理"输入本身也像指令"的场景时会被严重误导（指令干扰），提出 DIM-Bench 基准系统评估该问题，实验证明包括 GPT-4o 在内的主流 LLM 均显著受影响，且现有提示策略无法根本解决。

研究背景与动机¶

领域现状：LLM 的指令跟随能力是其核心应用基础。通过指令微调，LLM 在零样本场景下表现优异。现有评测基准（FollowBench、IFEval 等）主要关注复杂约束、多步推理等维度的指令跟随能力。
现有痛点：在实际数据处理场景中（如用 LLM 批量翻译、改写、校对数据），输入文本本身可能包含指令性内容。例如，用户要求翻译一段数学题文本，LLM 可能会直接去解题而非翻译。这种"指令干扰"（instructional distraction）问题在批量数据生成/处理中尤为严重，因为无法逐条手动调整 prompt。
核心矛盾：LLM 的指令跟随能力本身变成了漏洞——模型太擅长"看到指令就执行"，以至于无法区分"用户给的任务指令"和"输入数据中恰好看起来像指令的内容"。即使 prompt 明确标注了 Instruction 和 Input 的边界，模型仍会被输入中的指令性内容带跑。
本文目标 (1) 系统性定义和分类"指令干扰"现象；(2) 构建评估基准；(3) 测试主流 LLM 的抗干扰能力；(4) 探索缓解策略的有效性。
切入角度：从数据处理的实际需求出发——翻译、改写、校对、风格转换这四类常见任务，遇到推理题、代码、数学题、偏见检测题、阅读理解题这五类"看起来像指令"的输入时，LLM 会如何表现？
核心 idea：指令跟随能力是双刃剑——当输入数据像指令时，LLM 无法区分优先级，这是一个被忽视但影响实际应用的系统性漏洞。

方法详解¶

整体框架¶

DIM-Bench（Distractive Instruction Misunderstanding Benchmark）是一个 2000 条实例的基准测试。它将"指令干扰"场景组织为二维矩阵：4种指令任务（改写/校对/翻译/风格转换）× 5种输入任务（推理/代码生成/数学推理/偏见检测/问答），产生 20 个类别，每类 100 条。评估 LLM 的输出是否遵循了用户指令（而非被输入内容的隐含指令干扰）。

关键设计¶

指令任务选择（4种）:
- 功能：选择改写（rewriting）、校对（proofreading）、翻译（translation）、风格转换（style transfer）作为指令任务
- 核心思路：每类任务设计 8-10 个模板 prompt 以增加多样性。例如翻译任务覆盖中文/西语/法语/阿拉伯语/葡语/印地语/意大利语等目标语言
- 设计动机：这四种是 LLM 数据处理中最常见的任务类型，且输出形式明确（翻译后应是目标语言、校对后应修正语法等），便于自动评估是否跟随了正确指令
输入任务选择（5种干扰源）:
- 功能：选择推理（ARC 数据集）、代码生成（Code Alpaca）、数学推理（GSM8K + MATH）、偏见检测（BBQ）、问答（NarrativeQA）作为输入数据
- 核心思路：这些任务天然具有"指令性"——包含明确的问题/指令格式。例如数学题 "What's the total number of cartons?" 本身就像在要求 LLM 计算答案。QA 任务的输入特别长（平均 743-904 tokens），增加了指令与输入的距离
- 设计动机：覆盖不同干扰强度——问答类（直接包含问题）干扰最强，代码/数学类（包含编程/计算请求）干扰中等
双重评估方法:
- 功能：结合 LLM-judge 评估和基于长度差异的自动评估
- 核心思路：LLM-judge 将评估分解为 2-3 个二元（yes/no）子问题。例如翻译+推理的评估问题："目标文本是否是法语？是否保留了选择题格式？是否删除了原始选项？" 全部通过才算正确。长度差异评估用于 QA 任务——如果模型正确执行了改写/翻译等指令，输出长度应与输入相近；如果模型去回答问题了，输出会远短于输入
- 设计动机：LLM-judge 可能有评估偏差，长度评估提供客观支撑。多数失败案例中输出集中在 0-200 tokens（回答了问题），而输入通常 800+ tokens

实验关键数据¶

主实验：6个LLM在DIM-Bench上的表现¶

模型	推理	代码	数学	偏见检测	QA	平均
Llama-3.1-8B-Inst	0.13	0.24	0.39	0.05	0.00	0.16
Llama-3.1-70B-Inst	0.47	0.64	0.81	0.29	0.02	0.45
Qwen-2.5-7B-Inst	0.65	0.66	0.79	0.19	0.03	0.46
GPT-3.5	0.38	0.73	0.73	0.10	0.19	0.43
GPT-4o-mini	0.73	0.73	0.89	0.39	0.05	0.56
GPT-4o	0.61	0.67	0.82	0.24	0.02	0.47

上表为翻译指令下各输入任务的准确率（数据从论文 Table 3 翻译列提取）

不同指令任务维度的平均准确率¶

指令类型	平均准确率	说明
改写（Rewriting）	0.397	中等抗干扰
校对（Proofreading）	0.458	中等抗干扰
翻译（Translation）	0.526	最佳抗干扰（输出形式差异大）
风格转换（Style Transfer）	0.301	最差（输出形式与输入相似）

缓解策略效果（Llama-3.1-70B, 翻译任务）¶

方法	推理	代码	数学	偏见	QA
标准 prompt	0.70	0.82	0.92	0.44	0.00
DIRECT提示（明确要求忽略输入指令）	0.75	0.82	0.96	0.44	0.13
CoT提示	0.72	0.83	0.96	0.40	0.02
后缀指令（指令放输入后面）	0.67	0.08	0.72	0.44	0.08

关键发现¶

QA 输入最致命：几乎所有模型在 QA 输入下准确率接近 0，模型看到问题就去回答，完全忽略翻译/改写指令。手动验证确认大部分失败是模型直接回答了 QA 问题
输入越长越容易干扰：QA 任务按长度分组测试，平均 362 tokens 时准确率 0.28-0.31，到 3007 tokens 时降至 0.02-0.05。指令与问题距离越远，模型越容易"遗忘"指令
风格转换最脆弱：因为风格转换的输出与输入格式最相似（都是自然语言文本），模型更难区分"执行了指令"和"回应了输入"
后缀指令反而更差：将指令放在输入后面（suffix instruction）在大部分任务上性能下降，特别是代码生成从 0.82 暴跌到 0.08，说明位置效应很强

亮点与洞察¶

问题定义精准且实用：指令干扰不是一个理论问题，而是每天在批量数据处理中实际发生的。任何用 LLM 做数据清洗/翻译/改写的研究者都会遇到这个问题，但此前没有被系统研究过
基准设计巧妙：二维矩阵（4指令×5输入）的组织方式使得可以同时分析指令类型和输入类型对干扰程度的独立影响。长度差异评估方法利用了任务特性提供客观验证，不完全依赖 LLM-judge
GPT-4o 也翻车：最强模型在 QA 输入上准确率为 0-0.07，说明这不是模型能力不足而是架构/训练范式的根本限制。这对 LLM-as-data-annotator 等应用有重要警示
与 prompt injection 的关联：指令干扰可以看作一种无意的 prompt injection——输入数据中非恶意但格式类似指令的内容干扰了模型行为。这为安全研究提供了新视角

局限与展望¶

仅覆盖"一对多"以外的任务：摘要等一对多任务（输出形式不唯一）未被纳入，因为评估困难。但论文承认这类任务同样受指令干扰影响
缓解策略探索不够深入：仅测试了 3 种 prompt 策略，没有尝试训练层面的方案（如专门的指令优先级训练、指令层次化微调）。Wallace et al. (2024) 的 instruction hierarchy 训练方案可能是更有前景的方向
评估依赖 GPT-4o 作为 judge：GPT-4o 本身在该基准上表现不佳，用它反过来做评估可能存在偏差
没有分析指令干扰的根本原因：是注意力机制的位置编码问题？还是指令微调阶段的训练偏差？缺乏机制层面的分析
改进方向：可以在 SFT 阶段加入"输入含指令性内容但需忽略"的训练数据；也可以通过 structured generation / tool-use 框架将输入封装为不可执行的数据块

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统化定义和评估指令干扰问题，填补了重要空白
实验充分度: ⭐⭐⭐⭐ 6个模型、20类组合、多种评估方式和缓解策略，但缺少训练级方案
写作质量: ⭐⭐⭐⭐ 问题描述清晰，案例直观，数据组织合理
价值: ⭐⭐⭐⭐ 对实际 LLM 数据处理有直接指导意义，揭示了指令跟随的系统性盲区