ContextBench: Modifying Contexts for Targeted Latent Activation¶

会议: ICLR 2026
arXiv: 2506.15735
代码: https://github.com/lasr-eliciting-contexts/ContextBench
领域: AI安全 / LLM可解释性
关键词: 上下文修改, 潜在特征激活, AI安全, 稀疏自编码器, 后门检测

一句话总结¶

提出 ContextBench 基准（715 个任务）评估自动生成流畅且能激活特定潜在特征的输入文本的方法，并开发两种 EPO 增强变体（LLM辅助和扩散模型修补），在激活强度和语言流畅度的权衡上 Pareto 优于标准 EPO。

研究背景与动机¶

领域现状：AI 安全的一个核心挑战是在部署前发现触发模型有害行为的输入。VLM 的特征可视化在视觉领域已很成熟（通过梯度优化生成最大激活图像），但在语言领域因 token 空间的离散性而困难得多。
现有痛点：(a) 白盒方法（如 GCG）能通过梯度产生高激活输入，但文本完全不流畅——不会在真实部署中出现；(b) 黑盒方法（如 GPT-4o 提示）产生流畅文本但激活很弱——无法发现真正的触发条件；(c) EPO 作为唯一兼顾两者的方法，仍未达到安全应用所需的流畅度。
核心矛盾：激活强度和语言流畅度本质上存在权衡——单 token 梯度编辑容易陷入局部最优，要同时跨越流畅性和高激活需要协调的多 token 修改。
本文要解决什么？ (a) 建立系统化评估上下文修改方法的基准；(b) 改善 EPO 的流畅度-激活权衡；(c) 将这类技术首次应用于 SAE 潜在特征的激活。
切入角度：将"特征可视化"从视觉扩展到语言，通过生成流畅文本来激活特定的 SAE 潜在特征，揭示模型内部机制。流畅的触发输入在安全场景中更有价值——它们更可能真实出现、更难检测、更能揭示根本机制。
核心idea一句话：用 LLM 辅助和扩散模型修补增强梯度优化，生成既流畅又能强烈激活特定模型内部特征的输入文本。

方法详解¶

整体框架¶

ContextBench 包含三类任务：(1) SAE 激活（205 个 SAE 特征）——生成最大激活文本；(2) 故事修补（500 个故事）——修改中间句子改变预测续写；(3) 后门发现（10 个模型）——找到触发后门行为的条件。评估同时考虑激活强度和流畅度（交叉熵 3-9 范围内）。

关键设计¶

SAE 特征数据集的系统化构建:
做什么：从 Gemma Scope 和 Llama Scope 中精心挑选 205 个 SAE 特征，覆盖三个难度轴
核心思路：沿激活密度（低/中/高）、词汇多样性（单词/相关概念/广泛）、局部性（单 token/段落级）三个轴分类，生成 27 种组合，每种至少 2 个特征
设计动机：不同类型的特征对上下文修改方法的挑战不同——局部性高的特征容易通过插入特定 token 激活，全局性特征需要整段文本风格的修改
EPO-Assist（LLM 辅助）:
做什么：用 LLM 作为进化搜索中的变异算子
核心思路：每 50 次迭代，将 EPO 当前种群的候选文本送给 GPT-4o，让它基于这些样本生成新的流畅候选（不提供特征描述），再用 EPO 梯度继续优化。形成反馈循环：EPO 发现高激活 token 模式 → LLM 自然化 → EPO 精炼
设计动机：单 token 编辑陷入局部最优时，LLM 可以做协调的多 token 修改跳出局部最优
EPO-Inpainting（扩散模型修补）:
做什么：用 LLaDA（大语言扩散模型）修补低激活 token，保留高激活 token
核心思路：利用逐 token 归因分解 SAE 激活贡献，冻结贡献最大的 top-25% token + 随机冻结 25% 锚点 token，用 LLaDA-8B 双向注意力修补其余位置。每 15 次迭代执行一次
设计动机：类似于"流畅性投影"——EPO 自由探索可能破坏连贯性，定期修补将文本投影回流畅空间同时保留高价值 token
故事修补和后门任务:
故事修补：固定上下文中修改中间句子，使目标 token 的 logit 差超过源 token。测试上下文敏感的行为诱导能力
后门任务：给定后门模型和异常行为，恢复触发条件。包括三种后门类型：密码触发沙袋行为、时间触发毒性输出、密码绕过拒绝机制

损失函数 / 训练策略¶

EPO 核心目标：\(\mathcal{L}_\lambda = \mathcal{L}_{GCG} + \frac{\lambda}{n} \sum_{i=1}^{n} \log(p_i)\)，GCG 项最大化目标激活，交叉熵项保持流畅度，\(\lambda\) 控制权衡。多个 \(\lambda\) 值并行优化，勾勒 Pareto 前沿。EPO-Assist 和 EPO-Inpainting 的额外计算开销极小（周期性调用，不是每步）。

实验关键数据¶

主实验¶

SAE 激活任务（激活值归一化到训练集最大值的比例）：

方法	平均激活强度	流畅度范围内最高激活率	Pareto 优于 EPO
GCG	最高	最低（文本不可读）	-
GPT-4o	最低	高流畅度	-
EPO	中等	中等	baseline
EPO-Assist	高	高	✓
EPO-Inpainting	最高（流畅范围内）	最高	✓

消融实验¶

分析维度	关键发现
特征类型影响	局部+低多样性特征最易激活；全局+高多样性特征最难
故事修补	EPO 变体在 logit 差方面优于 GPT-4o，但偶尔发现意外的"捷径"解（如医学含义的 rash）
后门检测	白盒方法能恢复简单密码触发（1-3 token），但长密码和语义触发（时间、审计场景）仍然困难
流畅度验证	交叉熵与人类流畅度评分高度相关（\(\rho = 0.94\)），验证了代理指标的有效性

关键发现¶

EPO-Inpainting 在流畅度约束内达到最高激活，Pareto 优于所有其他方法
黑盒方法（GPT-4o）在 SAE 激活任务上严重受限——缺乏模型内部信息无法精准定位激活条件
Neuronpedia 的自动描述有时具有误导性（如特征被描述为"数字相关"但实际主要在数字"1"上激活），凸显了精细特征分析的价值
"规格博弈"现象有趣且有信息量：有些"捷径"解（如直接插入目标 token）实际揭示了特征本身的浅层性质
后门检测任务对现有方法仍具挑战性，密码越长恢复越难

亮点与洞察¶

语言版特征可视化的系统化：首次将视觉领域成熟的特征可视化系统地迁移到语言模型，通过三个轴的分类为未来研究提供结构化的难度空间
EPO-Inpainting 的"投影"直觉：周期性将优化结果投影回流畅文本流形，同时保留高激活锚点——这个思路可推广到任何需要在连续优化和离散约束间交替的场景
"捷径"解的双面性：论文优雅地处理了规格博弈问题——不是简单视为失败，而是指出某些捷径（如jailbreak模式的发现）本身就有安全价值
LLaDA 的巧妙应用：利用扩散语言模型的双向注意力做条件修补，这是 LLaDA 在可解释性领域的第一个应用

局限性 / 可改进方向¶

EPO-Assist 依赖 GPT-4o API，增加了成本和对外部模型的依赖
流畅度指标（交叉熵）虽然与人类评分相关度高，但交叉熵 3-9 的范围仍是人为设定
后门检测任务仅包含 10 个模型，覆盖的触发类型有限
SAE 特征的选择虽然系统化，但仍有手动策展的成分，可能遗漏某些重要类别
仅在 Gemma-2 和 Llama 系列上测试，未在更大规模模型上验证

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统化的语言特征可视化基准，EPO 变体设计巧妙
实验充分度: ⭐⭐⭐⭐ 715 个任务覆盖多种场景，但后门任务规模偏小
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，安全视角贯穿始终，规格博弈的讨论深思熟虑
价值: ⭐⭐⭐⭐ 对 AI 安全和可解释性社区有重要价值