Weak-to-Strong Generalization under Distribution Shifts¶

会议: NeurIPS 2025
arXiv: 2510.21332
代码: 待确认
领域: NLP理解 / 模型对齐 / 弱到强泛化
关键词: weak-to-strong generalization, 分布偏移, RAVEN, 超人模型监督, 对齐

一句话总结¶

发现朴素的弱到强泛化 (weak-to-strong generalization) 在分布偏移下会失败（强模型表现甚至不如弱监督者），提出 RAVEN 框架通过动态学习弱模型的最优组合权重来实现鲁棒的弱到强泛化，在 OOD 任务上超越基线 30%+。

研究背景与动机¶

领域现状：随着 AI 系统能力逐渐超越人类，如何用人类（或较弱模型）的监督信号来对齐超人模型成为关键问题。Burns et al. (2023) 提出的 weak-to-strong generalization 表明弱模型可以有效监督强模型——弱模型生成伪标签训练强模型，强模型能超越弱监督者的性能。
现有痛点：
现有弱到强研究都假设训练和测试数据来自相同分布，但实际部署中分布偏移无处不在
作者发现朴素的弱到强泛化在分布偏移下会严重退化——强模型不仅无法超越弱监督者，甚至表现更差
当多个弱模型在不同域上各有所长时，如何选择或组合弱监督信号成为难题
核心矛盾：弱模型的伪标签在其训练分布内是可靠的，但在 OOD 下噪声急剧增大；强模型学到了弱模型的偏差而非底层模式，导致强模型在 OOD 上比弱模型更差（负迁移）。
本文要解决什么：(1) 揭示分布偏移对弱到强泛化的毁灭性影响；(2) 设计一个鲁棒框架，能自动识别可信的弱监督信号并动态组合。
切入角度：不依赖单一弱模型，而是维护一组弱模型，让强模型在训练过程中动态学习每个弱模型的权重——准确的弱模型自动获得更高权重。
核心idea一句话：通过联合优化弱模型组合权重和强模型参数，实现分布偏移下的鲁棒弱到强泛化。

方法详解¶

整体框架¶

RAVEN（Robust weak-to-strong generalization framework）接受多个弱模型的伪标签作为输入，在训练强模型参数的同时，动态学习每个弱模型在不同样本上的最优组合系数。训练完成后，强模型既受益于弱模型在各自擅长域的高质量标签，又不被它们在 OOD 域的噪声标签影响。

关键设计¶

多弱模型组合学习：
做什么：维护一组弱模型 \(\{w_1, w_2, \ldots, w_K\}\)，每个弱模型在不同分布/域上各有专长
核心思路：为每个弱模型学习一个组合权重 \(\alpha_k\)（或可能是样本级别的权重），最终的监督信号是加权组合 \(\sum_k \alpha_k \cdot y_k^{\text{weak}}\)。联合优化目标同时更新 \(\alpha\) 和强模型参数 \(\theta\)
设计动机：避免单一弱模型在 OOD 上的噪声主导训练信号，同时利用多个弱模型在各自 in-distribution 上的高质量知识
自动可信度识别（权重学习）：
做什么：RAVEN 自动给更准确的弱模型分配更高权重
核心思路：权重反映弱模型在当前数据分布上的可靠程度。训练过程中权重自适应调整，无需手动指定哪个弱模型更可信
设计动机：在实际场景中，我们通常不知道哪个弱模型在哪个域上更好——让框架自动发现
跨任务通用性：
做什么：在三种任务类型上验证
涵盖图像分类（视觉域偏移）、文本分类（NLP域偏移）、偏好对齐（RLHF场景的域偏移）
设计动机：弱到强泛化在不同模态和任务上都面临分布偏移问题，验证方法的通用性

实验关键数据¶

主实验¶

任务类型	指标	RAVEN	基线最佳	提升
图像分类 (OOD)	Accuracy	显著领先	-	>30%
文本分类 (OOD)	Accuracy	显著领先	-	>30%
偏好对齐 (OOD)	Alignment	显著领先	-	>30%
In-distribution	-	匹配或超越	-	≥0%

关键发现¶

朴素弱到强在 OOD 下严重失败：强模型表现甚至不如弱监督者，这是一个重要的负面发现
RAVEN 在 OOD 上超越基线 30%+：同时在 in-distribution 上不掉点，说明不是以牺牲 ID 性能为代价
权重分配验证了方法的正确性：RAVEN 自动给更准确的弱模型分配更高权重，与人类直觉一致
三种任务类型全面有效：图像、文本、偏好对齐均验证了方法的通用性

亮点与洞察¶

揭示了弱到强泛化的盲区：之前的研究都在同分布下的"温室环境"中做实验，本文首次系统性地揭示分布偏移让弱到强泛化失效，这对超人模型对齐的实际可行性敲响警钟
动态组合多弱模型的思路简洁有效：类似于 ensemble 但在弱监督者层面做，且权重是可学习的而非固定的
与对齐安全高度相关：如果未来人类正在尝试对齐一个超人 AI，分布偏移几乎是必然存在的（人类无法覆盖超人 AI 的全部能力域），本文的场景设定非常现实

局限性 / 可改进方向¶

仅有摘要信息，具体优化公式未知：需要读全文才能了解权重学习的具体机制（是 bi-level optimization？meta-learning？还是简单的交替优化？）
弱模型数量 K 的影响：当弱模型数量很多或很少时效果如何？是否需要弱模型之间有足够的多样性？
计算开销：维护和推理多个弱模型 + 动态学权重的额外成本
分布偏移类型：是否对 covariate shift 和 label shift 都有效？不同类型的偏移是否需要不同策略？
强模型能力上限：当强模型本身能力有限时，组合再多弱模型也可能受限

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究分布偏移对弱到强泛化的影响，问题定位精准
实验充分度: ⭐⭐⭐⭐ 三种任务类型验证，但需读全文确认实验细节