跳转至

Similarity-Distance-Magnitude Activations

会议: ACL 2026
arXiv: 2509.12760
代码: 无
领域: 可解释性 / 不确定性估计
关键词: 激活函数, softmax替代, 选择性分类, 分布外检测, 预测不确定性

一句话总结

本文提出 SDM(Similarity-Distance-Magnitude)激活函数作为 softmax 的更鲁棒替代,通过将正确预测的深度匹配(Similarity)、到训练分布的距离(Distance)和决策边界距离(Magnitude)三个认知维度解耦并整合为新的激活 \(\text{sdm}(\mathbf{z}')_i = (2+q)^{d \cdot z'_i} / \sum_c (2+q)^{d \cdot z'_c}\),并在此基础上构建 SDM 估计器进行选择性分类,在协变量偏移和分布外输入下比现有校准方法更鲁棒。

研究背景与动机

领域现状:神经网络语言模型的参数不可辨识性(多组参数可产生相同输出分布)使得直接解释参数极为困难。softmax 是最常用的最终输出层激活函数,将 logits 转化为概率分布。现有的不确定性量化方法涵盖贝叶斯(如变分推断)、频率学派(如保形预测)和经验方法(如温度缩放),但 LLM 中高置信错误和幻觉的普遍性表明这些方法存在根本性不足。

现有痛点:softmax 仅捕捉 Magnitude(决策边界距离)一个维度的信息——通过 logits 的相对大小反映分类置信度。但它忽略了两个关键的认知信号:(1) 模型预测是否与训练集中的正确预测模式一致(Similarity);(2) 输入是否在训练分布的覆盖范围内(Distance)。这导致模型在面对分布外输入时仍然输出高置信度预测。

核心矛盾:有效的预测不确定性需要分解认知不确定性的来源,但 softmax 的单一温度参数 \(\tau\) 无法实现实例级的多维不确定性表征——\(\tau\) 是全局超参数,实例间的差异仅由 logits 大小决定。

本文目标:设计一个新的激活函数,将 Similarity、Distance、Magnitude 三个维度的认知不确定性信号显式分解并整合,提供更可靠的选择性分类基础。

切入角度:利用神经网络作为隐式的基于实例的度量学习器的能力,通过 exemplar adaptor(1-D CNN 适配器)在冻结的预训练 LM 隐藏状态之上构建紧凑的表示空间,从中提取 Similarity 和 Distance 信号。

核心 idea:将 softmax 的固定底数 \(e\) 替换为数据驱动的底数 \((2+q)\)(依赖 Similarity),将固定温度 \(\tau\) 替换为实例级的 Distance \(d\)——使激活函数的输出直接编码三个维度的认知不确定性。

方法详解

整体框架

SDM 系统包含三层:(1) 冻结的预训练 LM 提供隐藏状态 \(\mathbf{h}\);(2) exemplar adaptor(1-D CNN + 线性层)将 \(\mathbf{h}\) 映射为紧凑表示 \(\mathbf{h}'\) 和新 logits \(\mathbf{z}'\);(3) SDM 激活层利用 \(\mathbf{h}'\) 计算 Similarity \(q\) 和 Distance \(d\),与 \(\mathbf{z}'\) 结合输出校准的概率分布。在此之上,SDM 估计器通过数据驱动的经验 CDF 分区构建高可靠性区域用于选择性分类。

关键设计

  1. Similarity(\(q\))计算:

    • 功能:量化测试实例与训练集中正确预测模式的深度匹配程度
    • 核心思路:在 exemplar adaptor 的表示空间 \(\mathbf{h}'\) 中,对训练集按 \(L^2\) 距离排序,计算从最近邻开始连续满足以下条件的匹配数:(a) 训练样本的预测与当前实例预测相同(\(\hat{y} = \hat{y}^{tr}_{(i)}\)),(b) 训练样本预测正确(\(\hat{y}^{tr}_{(i)} = y^{tr}_{(i)}\)),(c) 匹配是连续的(中间不能有断裂)。\(q \in \{0, \ldots, |D_{tr}|\}\)\(q=0\) 表示最近邻就不满足条件,有效指示分布外
    • 设计动机:与传统 KNN 规则不同,SDM 的 Similarity 同时利用了模型预测和真实标签——如果训练集中距离最近的样本不仅标签相同且预测正确,说明模型在该区域有可靠的判别能力
  2. Distance(\(d\))计算:

    • 功能:量化测试实例到训练分布的归一化距离
    • 核心思路:首先计算到训练集最近邻的 \(L^2\) 距离 \(d_{\text{nearest}}\)。然后使用校准集 \(D_{ca}\) 中各类别的经验 CDF 进行归一化:\(d = \min[1 - \text{eCDF}^{y_1}_{ca}(d_{\text{nearest}}), \ldots, 1 - \text{eCDF}^{y_C}_{ca}(d_{\text{nearest}})]\)。当 \(d_{\text{nearest}}\) 超过标记数据中观测到的最大距离时 \(d=0\),SDM 输出均匀分布,表示最大不确定性
    • 设计动机:取所有类别 CDF 的最小值确保了保守估计——即使对于某些类别距离看起来正常,只要相对于任何一个类别距离异常大就会触发高不确定性
  3. SDM 激活与高可靠性区域估计:

    • 功能:将三个维度整合为校准的概率分布,并自动识别高可靠性预测区域
    • 核心思路:SDM 激活 \(\text{sdm}(\mathbf{z}')_i = (2+q)^{d \cdot z'_i} / \sum_c (2+q)^{d \cdot z'_c}\)。对应损失使用换底公式 \(\log_{(2+q)}\)。高可靠性区域通过以下步骤确定:先计算重缩放值 \(q' = \min(q, (2+q)^{\text{sdm}(\mathbf{z}')_{\hat{y}}})\),然后在 \(q' > 0\) 的子集上逐步增大 \(q'_{\min}\) 阈值,直到所有类别的保形阈值 \(\psi_c\) 都达到目标置信水平 \(\alpha\)(如 0.95)。满足 \(q' \geq q'_{\min}\)\(\text{sdm}(\mathbf{z}')_{\hat{y}} \geq \psi_{\hat{y}}\) 的预测进入高可靠性区域
    • 设计动机:通过渐进收紧 \(q'\) 阈值找到同时满足类别条件和预测条件准确率的区域,提供理论上有保证的选择性分类。当找不到有限 \(q'_{\min}\) 时,说明模型或数据不足以支撑可靠估计

损失函数 / 训练策略

使用 SDM 损失训练 exemplar adaptor(1-D CNN + 线性层),冻结底层 LM 参数。首轮训练以标准 softmax 初始化(\(q=e-2, d=1\)),后续每轮重新计算 \(q\)\(d\)。停止条件为校准集上最低的类别平衡损失。重复 \(J=10\) 次随机划分和参数初始化,选全局最优。CNN 使用 \(M=1000\) 个滤波器,每轮训练 200 个 epoch。

实验关键数据

主实验

情感分类(Sentiment,同分布)选择性分类表现(\(\alpha=0.95\)

模型+估计器 类别条件 y=0 y=1 预测条件 \(\hat{y}\)=0 \(\hat{y}\)=1 接纳比例
phi3.5 softmax 0.98 0.86 (<α) 0.88 (<α) 0.98 0.98
phi3.5 tempScaling 0.99 0.91 (<α) 0.93 (<α) 0.99 0.90
phi3.5+sdm sdmHR 1.00 0.99 0.99 1.00 0.68
Mixtral8x7B softmax 0.98 0.88 (<α) 0.89 (<α) 0.98 1.00
Mixtral8x7B+sdm sdmHR 0.99 0.98 0.99 0.98 0.74

情感分类 OOD(SentimentOOD,分布外)

模型+估计器 类别条件 y=0 y=1 接纳比例 说明
phi3.5 softmax 1.00 0.54 (<α) 0.96 过度自信,大量错误
phi3.5 APS 1.00 0.59 (<α) 0.77 仍然不达标
phi3.5+sdm sdmHR 1.00 1.00 0.01 几乎全部拒绝 OOD

消融实验

组件 效果 说明
softmax(无适配器) 类别条件准确率不达标 缺乏 Similarity 和 Distance
softmax(有适配器) ID 达标但 OOD 失败 有更好表示但无距离感知
softmax(\(d \cdot \mathbf{z}'\)) 过度保守(ID 接纳率低) 仅用 Distance 做温度,缺 Similarity
sdm\(_\alpha\)(简单阈值) 预测条件达标但类别条件不保证 缺少高可靠性区域约束
sdmHR(完整估计器) 两维条件均达标 Similarity+Distance+Magnitude 三维协同

关键发现

  • 在同分布数据上,没有适配器的 softmax/tempScaling/APS/RAPS 估计器普遍出现过度自信,类别条件准确率低于目标 \(\alpha=0.95\)
  • 在分布外数据上差异更加戏剧化——phi3.5+sdm 的 sdmHR 估计器将 SentimentOOD 的接纳率降至约 1%(几乎全部拒绝),而 softmax 仍接纳 96% 的 OOD 数据且 y=1 类准确率仅 0.54
  • 当 Alg. 1 返回 \(q'_{\min} = \infty\) 时,提供了模型/数据不足以支撑可靠估计的实用指标
  • Factcheck 任务上,softmax 和 APS 在协变量偏移的测试集上类别条件准确率严重不达标,sdmHR 则适当收紧接纳范围维持可靠性

亮点与洞察

  • Similarity 的定义非常巧妙——不仅要求最近邻标签相同,还要求模型对这些最近邻的预测也正确,且必须是连续的。这比传统 KNN 多了一个"模型在该区域是否可靠"的判断维度
  • SDM 的数学形式优雅——将 softmax 的底数和温度从固定常数推广为数据驱动的实例级变量,当 \(q=e-2, d=1\) 时精确退化为标准 softmax
  • 高可靠性区域的概念对多阶段 LLM 管道有直接价值——自动化预测进入高可靠性区域,其余分流到更昂贵的工具或人工审核

局限与展望

  • exemplar adaptor 需要维护完整的训练集用于 Similarity 和 Distance 计算,大规模数据集上的存储和检索效率是问题
  • 仅在二分类任务上验证(情感分析、事实检查),多类别和更复杂的 NLP 任务需进一步测试
  • \(q\) 的计算需要遍历训练集按距离排序,实时推理延迟需要优化(可能通过近似最近邻搜索)
  • 假设 exemplar adaptor 能够有效地在冻结 LM 之上学习判别性表示,对于某些任务这一假设可能不成立

相关工作与启发

  • vs Temperature Scaling: 温度缩放是单参数全局校准,SDM 通过 \(q\)\(d\) 提供实例级多维校准,在 OOD 场景下差异巨大
  • vs 保形预测(APS/RAPS): 保形方法的边际覆盖保证在选择性分类(仅取集合大小=1)时不直接适用,SDM 通过高可靠性区域的特殊构造提供了类别条件覆盖
  • vs VBLL: 变分贝叶斯最后层在 OOD 上优于 softmax/tempScaling,但仍不如 SDM 在极端 OOD 场景下的鲁棒性
  • vs 基于 exemplar 的方法: SDM 将 exemplar 匹配从后验解释工具提升为激活函数的核心组成部分

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将 softmax 的底数和温度从常数推广为数据驱动变量,三维认知不确定性分解开创性
  • 实验充分度: ⭐⭐⭐⭐ 系统的 ID/OOD/远 OOD 对比和多估计器消融,但任务范围偏窄(仅二分类)
  • 写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨,从 softmax 到 SDM 的推广路径清晰,符号体系一致
  • 价值: ⭐⭐⭐⭐ 为 LLM 部署中的不确定性量化提供了理论基础更强的方案,高可靠性区域概念有广泛应用潜力

相关论文