跳转至

Learning to Steer: Input-dependent Steering for Multimodal LLMs

会议: NeurIPS 2025
arXiv: 2508.12815
代码: https://github.com/jayneelparekh/learn-to-steer
领域: 多模态VLM / 模型安全 / 幻觉缓解 / 表示引导
关键词: steering, input-dependent, hallucination mitigation, safety enforcement, contrastive prompting

一句话总结

针对现有模型引导(steering)方法使用固定方向向量无法适配不同输入的局限,提出 L2S (Learn-to-Steer):先通过输入特定的对比提示生成理想的引导向量(P2S),再训练一个轻量 2 层 MLP 从输入上下文预测该向量,以极低开销实现了输入依赖的行为引导,在安全执行和幻觉缓解两个应用上显著优于静态 steering 基线。

研究背景与动机

  1. 领域现状:Steering 通过在 LLM/MLLM 的潜在表示上施加线性偏移来引导模型行为,是一种轻量级的 post-hoc 控制方法。主流做法(如 CAA/mean-steering)计算正负行为表示的均值差作为固定引导向量,对所有输入统一施加。
  2. 现有痛点:固定引导向量的致命问题在于——期望行为的实例化是输入依赖的。例如,对于非法活动查询,安全回答应该是拒绝回答;对于医疗咨询,安全回答应该是建议咨询专家。这两种"安全"行为完全不同,一个固定向量无法兼顾。
  3. 核心矛盾:理想的输入特定引导向量(P2S)需要知道期望的答案内容才能计算——但推理时我们正是不知道答案才需要引导,形成了鸡和蛋的问题。
  4. 切入角度:虽然我们在推理时不知道期望答案,但可以用训练数据中的对比提示构建 P2S 向量作为"教师信号",然后训练一个极简网络从输入上下文预测这些向量。
  5. 核心 idea:用 2 层 MLP 从输入的中间层表示预测输入特定的 steering 向量,将 P2S 的理论优势转化为实际可用的 L2S 方法。

方法详解

整体框架

分为训练和推理两个阶段: - 训练阶段:对每个样本 \(X=(I,T)\),构建输入特定的正/负对比提示 \((T_X^+, T_X^-)\),通过 teacher forcing 提取 \(L^*\) 层最后 token 的表示差作为 P2S 向量 \(z_{X,L^*}\),同时提取 \(L'\) 层输入上下文表示 \(h_{X,L'}\),训练 MLP \(g_{\Theta}\) 使得 \(g_\Theta(h_{X,L'}) \approx z_{X,L^*}\) - 推理阶段:对新输入提取 \(h_{X,L'}\),用训练好的 \(g_{\Theta^*}\) 预测引导向量,施加到 \(L^*\) 层所有生成 token 的表示上

关键设计

  1. 输入特定对比提示 (P2S)
  2. 做什么:为每个输入生成反映期望/非期望行为的提示补全
  3. 核心思路:构建 \(X^+ = (I, T||T_X^+)\)\(X^- = (I, T||T_X^-)\),在 teacher forcing 下提取 \(L^*\) 层最后 token 表示的差:\(z_{X,L^*} = h_{L^*}^{q^+}(X^+) - h_{L^*}^{q^-}(X^-)\)
  4. 设计动机:不同于 CAA 的固定提示对,P2S 允许不同输入使用不同的行为描述。例如安全场景中,非法活动用"拒绝"模板,医疗咨询用"推荐专家"模板

  5. Learn-to-Steer (L2S) 辅助网络

  6. 做什么:从输入上下文预测 P2S 引导向量,使推理时不需要知道对比提示
  7. 核心思路:定义输入上下文为 \(L'\) 层最后 input token 的表示 \(h_{X,L'} = h_{L'}^{N_V+N_T}(X)\)。训练目标为均方误差 \(\Theta^* = \arg\min_\Theta \mathbb{E}_X[\|z_{X,L^*} - g_\Theta(h_{X,L'})\|_2^2]\)。推理时对生成 token \(p\) 施加 \(h_{L^*}^p \leftarrow h_{L^*}^p + \alpha g_{\Theta^*}(h_{X,L'})\)
  8. 设计动机:2 层 MLP(hidden size 100)极其轻量,训练只需表示空间操作无需加载主模型梯度,内存开销可忽略

  9. 多行为场景处理

  10. 做什么:在同一 steering 框架中处理多种不同的期望行为
  11. 关键示例(安全场景):前 9 类有害活动→用"拒绝/回避"模板的 \((T_X^+, T_X^-)\);后 3 类敏感咨询→用"建议咨询专家"模板的 \((T_X^+, T_X^-)\)。L2S 通过学习不同输入到不同向量的映射,自然支持多行为
  12. 关键对比:mean-steering 如果混合不同模板的向量会互相干扰(Mean-S 差于 Mean-S(BA))

训练策略

  • 辅助网络:2 层 MLP,hidden size 100
  • 训练 100 epochs,Adam 优化器,学习率 \(10^{-4}\)\(5\times10^{-5}\)
  • Cosine 学习率调度 + plateau 自适应
  • 引导强度 \(\alpha \in [1, 3.0)\)(LLaVA),保证响应质量下降 <10%
  • 安全任务:\(L^*=15\)(引导层),\(L'=30\)(上下文提取层)
  • 幻觉任务:\(L^*=14, L'=14\)
  • 实验模型:LLaVA-v1.5-7B 和 Qwen2-VL-7B,单张 RTX5000 (24GB) 即可运行

实验关键数据

安全执行 — MMSafetyBench (LLaVA-v1.5)

指标 No-steering Prompt Mean-S Mean-S(BA) L2S P2S*
\(\mathbb{E}_{p\geq0.5}\)[Unsafe]↓ 0.276 0.248 0.161 0.089 0.082 0.094
\(\mathbb{E}_{p\geq0.7}\)[Unsafe]↓ 0.234 0.207 0.129 0.066 0.057 0.064
\(\mathbb{E}_{p\geq0.9}\)[Unsafe]↓ 0.204 0.183 0.102 0.041 0.034 0.042
ED-score↑ 0.250 0.197 0.329 0.276 0.395 0.382
Response quality↑ 6.92 7.34 6.61 6.42 6.56 6.49

幻觉缓解 — POPE (LLaVA-v1.5)

子集 指标 No-steering Prompt Norm-Rnd Mean-S L2S P2S*
Random Accuracy↑ 82.73 84.91 82.38 84.29 86.46 89.26
Random F1↑ 90.55 91.84 90.34 91.47 92.74 94.33
Popular Accuracy↑ 80.40 83.35 80.36 82.11 82.58 88.64
Adversarial Accuracy↑ 76.82 76.36 75.77 76.36 77.76 82.58

CHAIR 评估 (LLaVA-v1.5, 500 COCO 图像)

方法 CHAIR_s↓ CHAIR_i↓ Recall↑ Gemini Win Rate↑
No-steering 17.31 52.80 71.23 35.80%
L2S 16.10 51.80 73.50 64.20%

关键发现

  • L2S 超越 P2S oracle在安全任务上(Unsafe-score 0.082 vs 0.094),说明 L2S 的泛化能力甚至优于逐样本计算的理想方法
  • Mean-S 在混合多种行为模板时性能下降(Mean-S 0.161 vs Mean-S(BA) 0.089),但 L2S 可以同时处理多行为(ED-score 0.395 远超所有基线)
  • 随机方向 steering (Norm-Rnd) 可以降低有害内容但无法引导专家推荐行为,证明 steering 方向的精确性至关重要
  • 在幻觉任务上,Mean-S 和 Prompt 不能在所有子集上一致提升,但 L2S 全面优于所有可用基线
  • Gemini Win Rate 64.20% 表明 L2S 不仅减少幻觉,还提高了描述质量

亮点与洞察

  • 输入依赖 steering 的核心洞察精准:期望行为不是一个固定方向,而是取决于输入语境的流形——这在安全场景中尤其明显(拒绝 vs 推荐专家 vs 不介入)
  • 2 层 MLP 替代 teacher forcing的巧妙之处在于:将一个理论上不实用的方法(需要知道答案才能引导)转化为实际可部署的轻量方案
  • 训练成本极低:只需在表示空间训练小网络,无需主模型梯度,单 24GB GPU 即可完成全流程
  • L2S 在安全任务上超越 oracle P2S 说明学到的映射具有正则化效果,泛化性好

局限性 / 可改进方向

  • 对比提示的选择仍需人工设计,不同应用场景需要定制不同的 \((T_X^+, T_X^-)\) 模板
  • 目前只在单层 \(L^*\) 施加线性偏移,多层/非线性 steering 可能更有效
  • 辅助网络容量(hidden 100)可能限制了对复杂行为的建模能力
  • 主要在 LLaVA-v1.5 和 Qwen2-VL 上验证,需要更多模型和任务的验证
  • \(\alpha\) 值对性能-质量权衡非常敏感(\(\alpha \geq 3\) 明显退化),自动化选择 \(\alpha\) 是一个开放问题
  • 恶意使用风险:同样的方法可以被用来引导模型产生有害行为

相关工作与启发

  • vs CAA (Contrastive Activation Addition):CAA 用固定的均值差向量,适合行为实例化单一的场景;L2S 扩展为输入依赖,覆盖多行为场景
  • vs CAST:CAST 根据条件向量的相似度缩放固定 steering 向量,但方向仍不变;L2S 的方向和大小都是输入依赖的
  • vs PAI / AD-HH (注意力头干预):这些方法直接操纵注意力权重,L2S 操纵残差流表示;两者互补,可以组合使用
  • vs 微调(SFT/RLHF):微调成本高且可能遗忘;L2S 是 post-hoc 方法,不修改模型权重

评分

  • 新颖性: ⭐⭐⭐⭐ 输入依赖 steering 的想法自然但此前未被充分探索,P2S→L2S 的两步设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 安全+幻觉两个应用,两个模型,多个指标维度,消融全面
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,例子直观,方法描述简洁
  • 价值: ⭐⭐⭐⭐ 实用性强——极低成本的 post-hoc 行为控制方法,可直接部署于生产环境