Nudging: Inference-time Alignment of LLMs via Guided Decoding¶

会议: ACL 2025
arXiv: 2410.09300
代码: https://fywalter.github.io/nudging/
领域: LLM 对齐
关键词: 推理时对齐, 引导解码, 免训练, token级协作, 模型组合

一句话总结¶

提出 Nudging，一种免训练的推理时对齐算法，利用小型对齐模型在基础模型不确定时注入少量"nudging tokens"来引导输出，用 7-14 倍小的模型就能达到甚至超过大型对齐模型的性能。

领域现状: LLM 经过预训练后需要对齐（指令微调 + RLHF）才能有效跟随用户指令。当前流程需要为每个基础模型分别训练对齐版本，尤其对最大模型代价极高（如 Tulu 3 405B 的 RLHF 需 11,776 H100 GPU 小时）。
现有痛点: 每当出现新的模型家族或更大规模模型时，都需要从头进行对齐训练，阻碍了快速迭代和部署。现有推理时调优方法（如 Proxy Tuning）虽然免训练，但速度慢（比 Nudging 慢 10-20 倍）。
核心矛盾: 对齐主要只改变模型在少量"风格化 token"上的行为（如话语标记），为此却需要对整个大模型进行全面训练。
本文要解决什么: 在不训练的情况下，利用小型对齐模型在推理时实现大型基础模型的对齐。
切入角度: 基于关键发现——基础模型在对齐相关 token 位置上表现出显著更高的不确定性（top-1 概率 < 0.1 时 90% 的情况下与对齐模型不一致），可以用不确定性阈值准确预测需要干预的位置。
核心idea一句话: 在基础模型不确定时"推一把"（nudge），用小型对齐模型的 token 引导大模型走向正确方向。

给定基础模型和 nudging 模型，以 token 级别协作方式生成输出：基础模型正常解码 → 检测 top-1 概率是否低于阈值 γ → 若低于则由 nudging 模型生成一个"nudging word" → 基础模型从新前缀继续解码。

不确定性检测（Where to Nudge）: 分析发现基础模型 top-1 概率低于 0.5 时可捕获超过 80% 的对齐相关位置，而这些位置仅占所有位置的约 11%。因此设定固定阈值 γ（Llama-2 用 0.4，Gemma-2/OLMo 用 0.3）。
跨模型 Token 替代（What to Nudge）: 大小对齐模型在对齐相关位置的 token 分布高度相似（Llama-2: 65-83%，Gemma-2: 58-88% 的一致率），因此小型对齐模型可以作为大型对齐模型的替代品。以空格为边界取第一个完整"词"作为 nudging token，支持不同 tokenizer 的模型协作。
终止检测: nudging 模型生成 L 个 token 的前瞻补全，若产生 [EOS] 则采纳全部输出并终止；否则仅取第一个词。通过前缀缓存（prefix caching）将额外开销控制在约 15%。

完全免训练。Nudging 是纯解码时算法，无需任何参数更新。所有实验使用贪心解码。

3 个模型家族在 11 个标准 benchmark 上的零样本表现：

模型家族	基础模型	Nudging模型	Nudging平均	大对齐模型平均
Llama-2	70b	7b-chat	57.9	56.7
Gemma-2	27b	2b-it	70.3	74.4
OLMo	7b	1b-it	40.8	39.2

关键数据点（单任务表现）：

任务	Gemma-2-27b	Gemma-2-2b-it	Nudging	Gemma-2-27b-it
LastLetterConcat	6.7%	4.7%	86.0%	82.0%
CoinFlip	7.6%	33.9%	42.7	74.3
GSM8K	6.7%	63.8%	74.6	85.4

与其他推理时调优方法对比：

方法	Llama-2	Gemma-2	OLMo	速度(相对)
Ensemble	48.0	65.9	36.9	10.6×
Proxy Tuning	53.2	61.2	36.3	18.6×
Nudging	58.0	70.9	42.0	1×

将"对齐只改变少量 token"的学术观察转化为实用的工程方案，insight 与应用的结合非常漂亮
跨模型家族的 token 级协作是一个全新方向，打破了模型组合需要同家族的限制
Nudging 能"解耦"预训练能力和对齐能力：OLMo-7b-it 在 GSM8K 上比基础模型差（14.1 vs 18.8），但 Nudging 保留了基础模型的推理能力同时添加了对齐行为