Reducing the Scope of Language Models¶

会议: AAAI 2026
arXiv: 2410.21597
代码: https://github.com/IBM/llm-scoping
领域: LLM对齐 / 部署安全
关键词: 范围限制, 域外拒绝, SFT, DPO, Circuit Breakers

一句话总结¶

系统评估 LLM "范围限制"（scoping）方法——让部署在特定用途的 LLM 只响应域内查询、拒绝所有域外请求。在 3 个模型家族×多种任务上比较 prompting / SFT / DPO / 探针 / Circuit Breakers (CB)，发现 SFT 在高数据多样性下最强、CB 在低多样性下最强、分层组合 (SFT→CB) 保留两者优势——关键发现是范围限制的可行性高度依赖训练数据多样性。

研究背景与动机¶

领域现状：LLM 被部署在特定用途场景（购物助手、代码助手），但依然会响应所有查询（如写诗、回答物理问题）。安全对齐解决了拒绝有害内容，但未解决拒绝无害但超范围的内容。
现有痛点：
现有安全对齐只拒绝有害请求，不拒绝超范围请求——购物机器人不应该回答天体物理问题
缺乏系统性评估"让 LLM 只做特定工作"的方法比较
训练数据多样性对 scoping 效果的影响完全未知
核心矛盾：LLM 的通用性是优势（理解任何查询），但部署时需要限制范围——如何在保持域内能力的同时可靠地拒绝域外？
本文要解决什么？ 系统评估 5 种 scoping 方法，找到最佳实践和关键影响因素。
切入角度：将 scoping 定义为"分类+生成"双任务——不仅要拒绝域外，还要在域内保持高质量回答。
核心 idea 一句话：scoping 效果取决于训练数据多样性——高多样性用 SFT、低多样性用 CB、二者组合最稳健。

方法详解¶

整体框架¶

定义 scoping 任务：给定目标域（如"只回答编程问题"），LLM 应对域内 (ID) 查询正常答复、对域外 (OOD) 查询拒绝。评估 5 种方法在 3 个模型家族 (Llama-3/Mistral/Phi-3) 上的 Accept Score (域内答复质量) 和 Reject OOD (域外拒绝率)。

关键设计¶

五种 Scoping 方法对比:
System Prompting：最简单但最弱
SFT：在域内数据+域外拒绝数据上微调——依赖数据多样性
DPO：偏好优化（域内=preferred、域外=rejected）
Probing：用线性探针检测域外查询（无需微调模型）
Circuit Breakers (CB)：修改内部表示使域外查询触发"断路"
分层组合策略:
SFT→CB：先 SFT（教会域内合域外拒绝），再加 CB（增强域外拒绝鲁棒性）
设计动机：SFT 提供域内能力和基础 scoping、CB 补充 SFT 遗漏的域外情况
数据多样性控制实验:
做什么：系统变化训练数据中域外样本的多样性
发现：高多样性 → SFT 最佳（见过足够多 OOD 类型）；低多样性 → CB 最佳（不依赖 OOD 样本覆盖）

损失函数 / 训练策略¶

SFT: 标准 NLL；DPO: 偏好损失；CB: representation engineering
3 个模型家族 × 多种 ID/OOD 任务组合

实验关键数据¶

主实验¶

方法	Accept ID↑	Reject OOD↑	综合
System Prompt	0.10	0.70	弱
SFT	0.46	0.95	强（高多样性）
DPO	0.21	1.00	域外拒绝好但域内差
Probing	-	1.00	只做检测
CB	0.10	1.00	全拒绝但域内也拒绝
SFT→CB	0.46	1.00	最佳组合

消融：数据多样性的关键作用¶

多样性	SFT	CB	SFT→CB
高	最佳	好	最佳
低	差	最佳	好

关键发现¶

SFT→CB 组合最稳健：SFT 提供域内能力、CB 补充遗漏的 OOD 拒绝
数据多样性是决定因素：同样的方法在高低多样性下表现可逆转
DPO 过度拒绝：因为偏好信号太强，倾向拒绝所有不确定的查询
Probing 发现：域内/外在高层可线性分离——scoping 可以是纯检测问题

亮点与洞察¶

"scoping 是一种被忽视的安全需求"——区别于 toxicity 拒绝，是部署层面的实际问题
数据多样性作为关键变量的发现对实际部署有直接指导
SFT→CB 的分层策略是简单但有效的工程实践

局限性 / 可改进方向¶

未测试对抗性尝试绕过 scoping 的攻击（如 prompt injection）
scoping 边界模糊（"购物助手能回答退货政策但不能回答产品物理原理？"）
仅测试小/中等模型（<14B）

评分¶

新颖性: ⭐⭐⭐ 系统性比较贡献，但方法本身非原创
实验充分度: ⭐⭐⭐⭐ 5方法×3模型×多任务×多样性消融
写作质量: ⭐⭐⭐⭐ 实验组织好
价值: ⭐⭐⭐⭐ 对 LLM 部署实践有直接参考