跳转至

Weak-to-Strong Generalization under Distribution Shifts

会议: NeurIPS 2025
arXiv: 2510.21332
代码: 待确认
领域: NLP理解 / 模型对齐 / 弱到强泛化
关键词: weak-to-strong generalization, 分布偏移, RAVEN, 超人模型监督, 对齐

一句话总结

发现朴素的弱到强泛化 (weak-to-strong generalization) 在分布偏移下会失败(强模型表现甚至不如弱监督者),提出 RAVEN 框架通过动态学习弱模型的最优组合权重来实现鲁棒的弱到强泛化,在 OOD 任务上超越基线 30%+。

研究背景与动机

  1. 领域现状:随着 AI 系统能力逐渐超越人类,如何用人类(或较弱模型)的监督信号来对齐超人模型成为关键问题。Burns et al. (2023) 提出的 weak-to-strong generalization 表明弱模型可以有效监督强模型——弱模型生成伪标签训练强模型,强模型能超越弱监督者的性能。

  2. 现有痛点

  3. 现有弱到强研究都假设训练和测试数据来自相同分布,但实际部署中分布偏移无处不在
  4. 作者发现朴素的弱到强泛化在分布偏移下会严重退化——强模型不仅无法超越弱监督者,甚至表现更差
  5. 当多个弱模型在不同域上各有所长时,如何选择或组合弱监督信号成为难题

  6. 核心矛盾:弱模型的伪标签在其训练分布内是可靠的,但在 OOD 下噪声急剧增大;强模型学到了弱模型的偏差而非底层模式,导致强模型在 OOD 上比弱模型更差(负迁移)。

  7. 本文要解决什么:(1) 揭示分布偏移对弱到强泛化的毁灭性影响;(2) 设计一个鲁棒框架,能自动识别可信的弱监督信号并动态组合。

  8. 切入角度:不依赖单一弱模型,而是维护一组弱模型,让强模型在训练过程中动态学习每个弱模型的权重——准确的弱模型自动获得更高权重。

  9. 核心idea一句话:通过联合优化弱模型组合权重和强模型参数,实现分布偏移下的鲁棒弱到强泛化。

方法详解

整体框架

RAVEN(Robust weak-to-strong generalization framework)接受多个弱模型的伪标签作为输入,在训练强模型参数的同时,动态学习每个弱模型在不同样本上的最优组合系数。训练完成后,强模型既受益于弱模型在各自擅长域的高质量标签,又不被它们在 OOD 域的噪声标签影响。

关键设计

  1. 多弱模型组合学习
  2. 做什么:维护一组弱模型 \(\{w_1, w_2, \ldots, w_K\}\),每个弱模型在不同分布/域上各有专长
  3. 核心思路:为每个弱模型学习一个组合权重 \(\alpha_k\)(或可能是样本级别的权重),最终的监督信号是加权组合 \(\sum_k \alpha_k \cdot y_k^{\text{weak}}\)。联合优化目标同时更新 \(\alpha\) 和强模型参数 \(\theta\)
  4. 设计动机:避免单一弱模型在 OOD 上的噪声主导训练信号,同时利用多个弱模型在各自 in-distribution 上的高质量知识

  5. 自动可信度识别(权重学习)

  6. 做什么:RAVEN 自动给更准确的弱模型分配更高权重
  7. 核心思路:权重反映弱模型在当前数据分布上的可靠程度。训练过程中权重自适应调整,无需手动指定哪个弱模型更可信
  8. 设计动机:在实际场景中,我们通常不知道哪个弱模型在哪个域上更好——让框架自动发现

  9. 跨任务通用性

  10. 做什么:在三种任务类型上验证
  11. 涵盖图像分类(视觉域偏移)、文本分类(NLP域偏移)、偏好对齐(RLHF场景的域偏移)
  12. 设计动机:弱到强泛化在不同模态和任务上都面临分布偏移问题,验证方法的通用性

实验关键数据

主实验

任务类型 指标 RAVEN 基线最佳 提升
图像分类 (OOD) Accuracy 显著领先 - >30%
文本分类 (OOD) Accuracy 显著领先 - >30%
偏好对齐 (OOD) Alignment 显著领先 - >30%
In-distribution - 匹配或超越 - ≥0%

关键发现

  • 朴素弱到强在 OOD 下严重失败:强模型表现甚至不如弱监督者,这是一个重要的负面发现
  • RAVEN 在 OOD 上超越基线 30%+:同时在 in-distribution 上不掉点,说明不是以牺牲 ID 性能为代价
  • 权重分配验证了方法的正确性:RAVEN 自动给更准确的弱模型分配更高权重,与人类直觉一致
  • 三种任务类型全面有效:图像、文本、偏好对齐均验证了方法的通用性

亮点与洞察

  • 揭示了弱到强泛化的盲区:之前的研究都在同分布下的"温室环境"中做实验,本文首次系统性地揭示分布偏移让弱到强泛化失效,这对超人模型对齐的实际可行性敲响警钟
  • 动态组合多弱模型的思路简洁有效:类似于 ensemble 但在弱监督者层面做,且权重是可学习的而非固定的
  • 与对齐安全高度相关:如果未来人类正在尝试对齐一个超人 AI,分布偏移几乎是必然存在的(人类无法覆盖超人 AI 的全部能力域),本文的场景设定非常现实

局限性 / 可改进方向

  • 仅有摘要信息,具体优化公式未知:需要读全文才能了解权重学习的具体机制(是 bi-level optimization?meta-learning?还是简单的交替优化?)
  • 弱模型数量 K 的影响:当弱模型数量很多或很少时效果如何?是否需要弱模型之间有足够的多样性?
  • 计算开销:维护和推理多个弱模型 + 动态学权重的额外成本
  • 分布偏移类型:是否对 covariate shift 和 label shift 都有效?不同类型的偏移是否需要不同策略?
  • 强模型能力上限:当强模型本身能力有限时,组合再多弱模型也可能受限

相关工作与启发

  • vs Burns et al. (2023):原始弱到强框架假设同分布,本文揭示其 OOD 下的脆弱性,RAVEN 是一个必要的修补
  • vs 知识蒸馏中的分布偏移:知识蒸馏也面临类似问题(teacher 在 OOD 上不可靠),RAVEN 的多教师组合权重学习思路可直接迁移
  • 与超级对齐(Superalignment)关联:OpenAI 的超级对齐研究关注如何用弱(人类)信号对齐强(超人)AI,本文为这一议题提供了分布偏移视角的重要补充

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究分布偏移对弱到强泛化的影响,问题定位精准
  • 实验充分度: ⭐⭐⭐⭐ 三种任务类型验证,但需读全文确认实验细节