Asymmetric Duos: Sidekicks Improve Uncertainty¶

会议: NeurIPS 2025
arXiv: 2505.18636
代码: https://github.com/timgzhou/asymmetric-duos
领域: 不确定性估计
关键词: 不确定性量化, 深度集成, 非对称配对, 温度缩放, FLOPs效率

一句话总结¶

Asymmetric Duos（AD）将一个大模型与一个小"sidekick"配对——通过温度加权的 logit 平均融合两者预测，在仅增加 10-20% FLOPs 的条件下达到接近 5× 深度集成的不确定性估计质量，RN50 AD（5% FLOPs 额外开销）在 AUROC/AURC/SAC@98 上接近 m=5 深度集成（400% 额外 FLOPs）。

研究背景与动机¶

领域现状：深度集成（DE）是不确定性估计的金标准——训练 2-5 个独立模型取平均。但计算成本随集成数线性增长，对 ViT-H 等大模型不可行。
现有痛点：(a) 深度集成需要 200-500% 额外 FLOPs——实际部署不可接受；(b) MC-Dropout 等轻量替代效果远不如集成；(c) 微调多个大模型的存储和计算成本巨大。
核心矛盾：好的不确定性估计需要模型多样性（不同模型在不同样本上犯不同错误），但多样性的代价是多模型推理。
本文要解决什么？ 在极低额外成本（10-20% FLOPs）下获得接近集成的不确定性估计质量。
切入角度：多样性不需要来自相同大小的模型——一个大模型 + 一个小模型的非对称配对可以提供足够多样性。
核心 idea 一句话：大模型 + 小 sidekick → 温度加权 logit 平均 → 用 L-BFGS 在验证集上调温度（秒级）→ 10-20% 额外 FLOPs 接近 5× 集成质量。

方法详解¶

整体框架¶

训练大模型 \(f_{large}\)（如 ViT-L）+ 小模型 \(f_{small}\)（如 RN18）→ 温度调优: 在验证集上用 L-BFGS 最小化 NLL 找到 \(T_{large}, T_{small}\) → 推理: \(f_{Duo}(X) = f_{large}(X) \cdot T_{large} + f_{small}(X) \cdot T_{small}\) → 不确定性 = \(1 - [\sigma(f_{Duo})]_{\hat{Y}}\)

关键设计¶

温度加权融合:
做什么：自动调节大小模型的相对贡献
核心思路：\(f_{Duo}(X) = T_{large} \cdot f_{large}(X) + T_{small} \cdot f_{small}(X)\)，温度 \(T\) 通过验证集 NLL 最小化用 L-BFGS 求解（仅需秒级计算）
设计动机：温度自动降权差的 sidekick——如果 sidekick 完全无用，\(T_{small} \to 0\) 退化为单模型
非对称配对策略:
做什么：选择大小差异大的模型对
核心思路：sidekick 只需 5-20% 的大模型 FLOPs。不需要 sidekick 很准确——多样性比准确性更重要
设计动机：实验表明即使 sidekick 准确率较低，其错误模式与大模型不同就能提供有价值的不确定性信号
与 Model Soups 兼容:
做什么：AD 可以叠加在 Model Soups 之上
核心思路：先做 soup（权重平均），再配 sidekick → soup+Duo > soup alone
设计动机：两种技术正交——soup 改善基础模型，Duo 改善不确定性

损失函数 / 训练策略¶

大小模型独立训练（标准交叉熵）
温度调优：验证集 NLL 最小化，L-BFGS 求解，秒级完成
指标：AUROC（正确性预测）、AURC（选择性分类）、SAC@98（98% 准确率覆盖率）

实验关键数据¶

主实验（ImageNet）¶

方法	额外 FLOPs	AUROC	AURC	SAC@98
RN50 单模型	0%	baseline	baseline	baseline
RN50 AD (RN18 sidekick)	5%	接近 DE-5	接近 DE-5	+10%
RN50 DE (m=5)	400%	最优	最优	最优

消融实验¶

配置	发现
无权重 vs 有权重 Duo	无权重在极低 FLOPs 时显著差——温度调优关键
仅 UQ（不改变预测标签）	不确定性改善不仅来自准确率提升——独立的 UQ 贡献
跨域测试（ImageNet-V2, iWildCam）	AD 在域偏移下同样有效
AD + Model Soups	叠加优于单独使用

关键发现¶

5% 额外 FLOPs 就能接近 400% FLOPs 的深度集成——效率提升 80×
不确定性改善不仅来自准确率——消融证明即使固定预测仅用 Duo 的不确定性也更好
跨域泛化好——ImageNet-V2、Caltech、iWildCam 上一致有效
温度调优是关键——秒级计算但效果显著

亮点与洞察¶

极致的效率-质量平衡：5% FLOPs 换来接近 5× 集成的 UQ 质量——这对实际部署极有价值
"多样性不需要对等"的洞察深刻：小模型的错误模式天然与大模型不同，无需刻意构造多样性
温度调优的自动防护：如果 sidekick 完全没用，温度自动衰减到零——不会比单模型差

局限性 / 可改进方向¶

仅在图像分类上验证——分割、回归、NLP 任务未测试
仅微调工作流——从头训练未验证
大模型仍需完整训练——不节省训练成本
温度调优依赖验证集

评分¶

新颖性: ⭐⭐⭐⭐ 非对称配对的简单但有效的概念
实验充分度: ⭐⭐⭐⭐ ImageNet + 跨域 + 多 backbone + 消融
写作质量: ⭐⭐⭐⭐ 简洁明了
价值: ⭐⭐⭐⭐⭐ 极高的实用性——几乎零成本的 UQ 改善

方法补充说明¶

温度调优的数学原理：最小化 NLL = \(-\sum_i \log \sigma(f_{Duo}(X_i))_{y_i}\) 关于 \(T_{large}, T_{small}\)——这是一个低维凸优化问题（仅 2 个参数），L-BFGS 秒级求解
为什么小模型的"错误"有价值：大小模型在不同样本上犯错——大模型高置信但错误时，小模型可能低置信（反之亦然），融合后不确定性更准确地反映真实风险
与蒸馏的区别：蒸馏用大模型指导小模型（单向），AD 让大小模型互相补充（双向）——不改变任何模型的参数，只在推理时融合
SAC@98 指标的实用意义：在 98% 准确率要求下能覆盖多少样本——直接对应"自动驾驶中可信赖的场景比例"等安全关键应用
对大规模模型的适用性：ViT-H等超大模型配一个RN18 sidekick——额外不到1%FLOPs就能改善不确定性，实用性极高