Learning to Steer: Input-dependent Steering for Multimodal LLMs¶

会议: NeurIPS 2025
arXiv: 2508.12815
代码: https://github.com/jayneelparekh/learn-to-steer
领域: 多模态VLM / 模型安全 / 幻觉缓解 / 表示引导
关键词: steering, input-dependent, hallucination mitigation, safety enforcement, contrastive prompting

一句话总结¶

针对现有模型引导(steering)方法使用固定方向向量无法适配不同输入的局限，提出 L2S (Learn-to-Steer)：先通过输入特定的对比提示生成理想的引导向量（P2S），再训练一个轻量 2 层 MLP 从输入上下文预测该向量，以极低开销实现了输入依赖的行为引导，在安全执行和幻觉缓解两个应用上显著优于静态 steering 基线。

研究背景与动机¶

领域现状：Steering 通过在 LLM/MLLM 的潜在表示上施加线性偏移来引导模型行为，是一种轻量级的 post-hoc 控制方法。主流做法（如 CAA/mean-steering）计算正负行为表示的均值差作为固定引导向量，对所有输入统一施加。
现有痛点：固定引导向量的致命问题在于——期望行为的实例化是输入依赖的。例如，对于非法活动查询，安全回答应该是拒绝回答；对于医疗咨询，安全回答应该是建议咨询专家。这两种"安全"行为完全不同，一个固定向量无法兼顾。
核心矛盾：理想的输入特定引导向量（P2S）需要知道期望的答案内容才能计算——但推理时我们正是不知道答案才需要引导，形成了鸡和蛋的问题。
切入角度：虽然我们在推理时不知道期望答案，但可以用训练数据中的对比提示构建 P2S 向量作为"教师信号"，然后训练一个极简网络从输入上下文预测这些向量。
核心 idea：用 2 层 MLP 从输入的中间层表示预测输入特定的 steering 向量，将 P2S 的理论优势转化为实际可用的 L2S 方法。

方法详解¶

整体框架¶

分为训练和推理两个阶段： - 训练阶段：对每个样本 \(X=(I,T)\)，构建输入特定的正/负对比提示 \((T_X^+, T_X^-)\)，通过 teacher forcing 提取 \(L^*\) 层最后 token 的表示差作为 P2S 向量 \(z_{X,L^*}\)，同时提取 \(L'\) 层输入上下文表示 \(h_{X,L'}\)，训练 MLP \(g_{\Theta}\) 使得 \(g_\Theta(h_{X,L'}) \approx z_{X,L^*}\) - 推理阶段：对新输入提取 \(h_{X,L'}\)，用训练好的 \(g_{\Theta^*}\) 预测引导向量，施加到 \(L^*\) 层所有生成 token 的表示上

关键设计¶

输入特定对比提示 (P2S)：
做什么：为每个输入生成反映期望/非期望行为的提示补全
核心思路：构建 \(X^+ = (I, T||T_X^+)\) 和 \(X^- = (I, T||T_X^-)\)，在 teacher forcing 下提取 \(L^*\) 层最后 token 表示的差：\(z_{X,L^*} = h_{L^*}^{q^+}(X^+) - h_{L^*}^{q^-}(X^-)\)
设计动机：不同于 CAA 的固定提示对，P2S 允许不同输入使用不同的行为描述。例如安全场景中，非法活动用"拒绝"模板，医疗咨询用"推荐专家"模板
Learn-to-Steer (L2S) 辅助网络：
做什么：从输入上下文预测 P2S 引导向量，使推理时不需要知道对比提示
核心思路：定义输入上下文为 \(L'\) 层最后 input token 的表示 \(h_{X,L'} = h_{L'}^{N_V+N_T}(X)\)。训练目标为均方误差 \(\Theta^* = \arg\min_\Theta \mathbb{E}_X[\|z_{X,L^*} - g_\Theta(h_{X,L'})\|_2^2]\)。推理时对生成 token \(p\) 施加 \(h_{L^*}^p \leftarrow h_{L^*}^p + \alpha g_{\Theta^*}(h_{X,L'})\)
设计动机：2 层 MLP（hidden size 100）极其轻量，训练只需表示空间操作无需加载主模型梯度，内存开销可忽略
多行为场景处理：
做什么：在同一 steering 框架中处理多种不同的期望行为
关键示例（安全场景）：前 9 类有害活动→用"拒绝/回避"模板的 \((T_X^+, T_X^-)\)；后 3 类敏感咨询→用"建议咨询专家"模板的 \((T_X^+, T_X^-)\)。L2S 通过学习不同输入到不同向量的映射，自然支持多行为
关键对比：mean-steering 如果混合不同模板的向量会互相干扰（Mean-S 差于 Mean-S(BA)）

训练策略¶

辅助网络：2 层 MLP，hidden size 100
训练 100 epochs，Adam 优化器，学习率 \(10^{-4}\) 或 \(5\times10^{-5}\)
Cosine 学习率调度 + plateau 自适应
引导强度 \(\alpha \in [1, 3.0)\)（LLaVA），保证响应质量下降 <10%
安全任务：\(L^*=15\)（引导层），\(L'=30\)（上下文提取层）
幻觉任务：\(L^*=14, L'=14\)
实验模型：LLaVA-v1.5-7B 和 Qwen2-VL-7B，单张 RTX5000 (24GB) 即可运行

实验关键数据¶

安全执行 — MMSafetyBench (LLaVA-v1.5)¶

指标	No-steering	Prompt	Mean-S	Mean-S(BA)	L2S	P2S*
\(\mathbb{E}_{p\geq0.5}\)[Unsafe]↓	0.276	0.248	0.161	0.089	0.082	0.094
\(\mathbb{E}_{p\geq0.7}\)[Unsafe]↓	0.234	0.207	0.129	0.066	0.057	0.064
\(\mathbb{E}_{p\geq0.9}\)[Unsafe]↓	0.204	0.183	0.102	0.041	0.034	0.042
ED-score↑	0.250	0.197	0.329	0.276	0.395	0.382
Response quality↑	6.92	7.34	6.61	6.42	6.56	6.49

幻觉缓解 — POPE (LLaVA-v1.5)¶

子集	指标	No-steering	Prompt	Norm-Rnd	Mean-S	L2S	P2S*
Random	Accuracy↑	82.73	84.91	82.38	84.29	86.46	89.26
Random	F1↑	90.55	91.84	90.34	91.47	92.74	94.33
Popular	Accuracy↑	80.40	83.35	80.36	82.11	82.58	88.64
Adversarial	Accuracy↑	76.82	76.36	75.77	76.36	77.76	82.58

CHAIR 评估 (LLaVA-v1.5, 500 COCO 图像)¶

方法	CHAIR_s↓	CHAIR_i↓	Recall↑	Gemini Win Rate↑
No-steering	17.31	52.80	71.23	35.80%
L2S	16.10	51.80	73.50	64.20%

关键发现¶

L2S 超越 P2S oracle在安全任务上（Unsafe-score 0.082 vs 0.094），说明 L2S 的泛化能力甚至优于逐样本计算的理想方法
Mean-S 在混合多种行为模板时性能下降（Mean-S 0.161 vs Mean-S(BA) 0.089），但 L2S 可以同时处理多行为（ED-score 0.395 远超所有基线）
随机方向 steering (Norm-Rnd) 可以降低有害内容但无法引导专家推荐行为，证明 steering 方向的精确性至关重要
在幻觉任务上，Mean-S 和 Prompt 不能在所有子集上一致提升，但 L2S 全面优于所有可用基线
Gemini Win Rate 64.20% 表明 L2S 不仅减少幻觉，还提高了描述质量

亮点与洞察¶

输入依赖 steering 的核心洞察精准：期望行为不是一个固定方向，而是取决于输入语境的流形——这在安全场景中尤其明显（拒绝 vs 推荐专家 vs 不介入）
2 层 MLP 替代 teacher forcing的巧妙之处在于：将一个理论上不实用的方法（需要知道答案才能引导）转化为实际可部署的轻量方案
训练成本极低：只需在表示空间训练小网络，无需主模型梯度，单 24GB GPU 即可完成全流程
L2S 在安全任务上超越 oracle P2S 说明学到的映射具有正则化效果，泛化性好

局限性 / 可改进方向¶

对比提示的选择仍需人工设计，不同应用场景需要定制不同的 \((T_X^+, T_X^-)\) 模板
目前只在单层 \(L^*\) 施加线性偏移，多层/非线性 steering 可能更有效
辅助网络容量（hidden 100）可能限制了对复杂行为的建模能力
主要在 LLaVA-v1.5 和 Qwen2-VL 上验证，需要更多模型和任务的验证
\(\alpha\) 值对性能-质量权衡非常敏感（\(\alpha \geq 3\) 明显退化），自动化选择 \(\alpha\) 是一个开放问题
恶意使用风险：同样的方法可以被用来引导模型产生有害行为

评分¶

新颖性: ⭐⭐⭐⭐ 输入依赖 steering 的想法自然但此前未被充分探索，P2S→L2S 的两步设计巧妙
实验充分度: ⭐⭐⭐⭐ 安全+幻觉两个应用，两个模型，多个指标维度，消融全面
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，例子直观，方法描述简洁
价值: ⭐⭐⭐⭐ 实用性强——极低成本的 post-hoc 行为控制方法，可直接部署于生产环境