跳转至

Nudging: Inference-time Alignment of LLMs via Guided Decoding

会议: ACL 2025
arXiv: 2410.09300
代码: https://fywalter.github.io/nudging/
领域: LLM 对齐
关键词: 推理时对齐, 引导解码, 免训练, token级协作, 模型组合

一句话总结

提出 Nudging,一种免训练的推理时对齐算法,利用小型对齐模型在基础模型不确定时注入少量"nudging tokens"来引导输出,用 7-14 倍小的模型就能达到甚至超过大型对齐模型的性能。

研究背景与动机

  1. 领域现状: LLM 经过预训练后需要对齐(指令微调 + RLHF)才能有效跟随用户指令。当前流程需要为每个基础模型分别训练对齐版本,尤其对最大模型代价极高(如 Tulu 3 405B 的 RLHF 需 11,776 H100 GPU 小时)。
  2. 现有痛点: 每当出现新的模型家族或更大规模模型时,都需要从头进行对齐训练,阻碍了快速迭代和部署。现有推理时调优方法(如 Proxy Tuning)虽然免训练,但速度慢(比 Nudging 慢 10-20 倍)。
  3. 核心矛盾: 对齐主要只改变模型在少量"风格化 token"上的行为(如话语标记),为此却需要对整个大模型进行全面训练。
  4. 本文要解决什么: 在不训练的情况下,利用小型对齐模型在推理时实现大型基础模型的对齐。
  5. 切入角度: 基于关键发现——基础模型在对齐相关 token 位置上表现出显著更高的不确定性(top-1 概率 < 0.1 时 90% 的情况下与对齐模型不一致),可以用不确定性阈值准确预测需要干预的位置。
  6. 核心idea一句话: 在基础模型不确定时"推一把"(nudge),用小型对齐模型的 token 引导大模型走向正确方向。

方法详解

整体框架

给定基础模型和 nudging 模型,以 token 级别协作方式生成输出:基础模型正常解码 → 检测 top-1 概率是否低于阈值 γ → 若低于则由 nudging 模型生成一个"nudging word" → 基础模型从新前缀继续解码。

关键设计

  1. 不确定性检测(Where to Nudge): 分析发现基础模型 top-1 概率低于 0.5 时可捕获超过 80% 的对齐相关位置,而这些位置仅占所有位置的约 11%。因此设定固定阈值 γ(Llama-2 用 0.4,Gemma-2/OLMo 用 0.3)。
  2. 跨模型 Token 替代(What to Nudge): 大小对齐模型在对齐相关位置的 token 分布高度相似(Llama-2: 65-83%,Gemma-2: 58-88% 的一致率),因此小型对齐模型可以作为大型对齐模型的替代品。以空格为边界取第一个完整"词"作为 nudging token,支持不同 tokenizer 的模型协作。
  3. 终止检测: nudging 模型生成 L 个 token 的前瞻补全,若产生 [EOS] 则采纳全部输出并终止;否则仅取第一个词。通过前缀缓存(prefix caching)将额外开销控制在约 15%。

损失函数 / 训练策略

完全免训练。Nudging 是纯解码时算法,无需任何参数更新。所有实验使用贪心解码。

实验关键数据

主实验

3 个模型家族在 11 个标准 benchmark 上的零样本表现:

模型家族 基础模型 Nudging模型 Nudging平均 大对齐模型平均
Llama-2 70b 7b-chat 57.9 56.7
Gemma-2 27b 2b-it 70.3 74.4
OLMo 7b 1b-it 40.8 39.2

关键数据点(单任务表现):

任务 Gemma-2-27b Gemma-2-2b-it Nudging Gemma-2-27b-it
LastLetterConcat 6.7% 4.7% 86.0% 82.0%
CoinFlip 7.6% 33.9% 42.7 74.3
GSM8K 6.7% 63.8% 74.6 85.4

消融实验

与其他推理时调优方法对比:

方法 Llama-2 Gemma-2 OLMo 速度(相对)
Ensemble 48.0 65.9 36.9 10.6×
Proxy Tuning 53.2 61.2 36.3 18.6×
Nudging 58.0 70.9 42.0

关键发现

  • Nudging 仅影响约 10% 的输出 token,额外运行时间仅约 15%
  • 在数学和符号推理任务上效果尤其显著:LastLetterConcat 上 Gemma-2 从 6.7% 飙升至 86%
  • 跨家族协作有效:Gemma-2-27b + Llama-2-7b-chat 在多个任务上超越 Llama-2-70b-chat
  • 对齐模型倾向于给出"50% 概率"等保守回答(如 CoinFlip 任务),Nudging 通过保留基础模型的推理能力避免了这一问题
  • 与 In-context Alignment 对比:Nudging 在所有模型家族上显著优于 ICL(Llama-2: 57.9 vs 47.6)

亮点与洞察

  • 将"对齐只改变少量 token"的学术观察转化为实用的工程方案,insight 与应用的结合非常漂亮
  • 跨模型家族的 token 级协作是一个全新方向,打破了模型组合需要同家族的限制
  • Nudging 能"解耦"预训练能力和对齐能力:OLMo-7b-it 在 GSM8K 上比基础模型差(14.1 vs 18.8),但 Nudging 保留了基础模型的推理能力同时添加了对齐行为

局限性 / 可改进方向

  • 阈值 γ 需要针对不同模型家族手动调优(0.3-0.4),缺乏自适应机制
  • 在 Gemma-2 上 Nudging 与大型对齐模型仍有差距(70.3 vs 74.4)
  • 仅在 7B-70B 规模验证,对 100B+ 模型的适用性未确认
  • 安全性方面仅做了初步评估,对抗鲁棒性未测试

相关工作与启发

  • 与 Proxy Tuning 的关系:都是免训练推理时方法,但 Nudging 在 token 级别操作(而非分布级别),更快且通常更好
  • 与 Speculative Decoding 的联系:共享前缀缓存技术,但目标不同——后者追求加速,前者追求对齐
  • 启发:token 级模型协作范式有潜力推广到更多场景(如多语言、多模态)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 推理时token级对齐是全新范式,insight驱动设计自然优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个模型家族×13个数据集×多种对比,跨家族实验是加分项
  • 写作质量: ⭐⭐⭐⭐⭐ 分析透彻,从观察到方法到实验环环相扣
  • 价值: ⭐⭐⭐⭐⭐ 实用性极强,显著降低对齐成本,开辟新的研究方向