Similarity-Distance-Magnitude Activations¶

会议: ACL 2026
arXiv: 2509.12760
代码: 无
领域: 可解释性 / 不确定性估计
关键词: 激活函数, softmax替代, 选择性分类, 分布外检测, 预测不确定性

一句话总结¶

本文提出 SDM（Similarity-Distance-Magnitude）激活函数作为 softmax 的更鲁棒替代，通过将正确预测的深度匹配（Similarity）、到训练分布的距离（Distance）和决策边界距离（Magnitude）三个认知维度解耦并整合为新的激活 \(\text{sdm}(\mathbf{z}')_i = (2+q)^{d \cdot z'_i} / \sum_c (2+q)^{d \cdot z'_c}\)，并在此基础上构建 SDM 估计器进行选择性分类，在协变量偏移和分布外输入下比现有校准方法更鲁棒。

研究背景与动机¶

领域现状：神经网络语言模型的参数不可辨识性（多组参数可产生相同输出分布）使得直接解释参数极为困难。softmax 是最常用的最终输出层激活函数，将 logits 转化为概率分布。现有的不确定性量化方法涵盖贝叶斯（如变分推断）、频率学派（如保形预测）和经验方法（如温度缩放），但 LLM 中高置信错误和幻觉的普遍性表明这些方法存在根本性不足。

现有痛点：softmax 仅捕捉 Magnitude（决策边界距离）一个维度的信息——通过 logits 的相对大小反映分类置信度。但它忽略了两个关键的认知信号：(1) 模型预测是否与训练集中的正确预测模式一致（Similarity）；(2) 输入是否在训练分布的覆盖范围内（Distance）。这导致模型在面对分布外输入时仍然输出高置信度预测。

核心矛盾：有效的预测不确定性需要分解认知不确定性的来源，但 softmax 的单一温度参数 \(\tau\) 无法实现实例级的多维不确定性表征——\(\tau\) 是全局超参数，实例间的差异仅由 logits 大小决定。

本文目标：设计一个新的激活函数，将 Similarity、Distance、Magnitude 三个维度的认知不确定性信号显式分解并整合，提供更可靠的选择性分类基础。

切入角度：利用神经网络作为隐式的基于实例的度量学习器的能力，通过 exemplar adaptor（1-D CNN 适配器）在冻结的预训练 LM 隐藏状态之上构建紧凑的表示空间，从中提取 Similarity 和 Distance 信号。

核心 idea：将 softmax 的固定底数 \(e\) 替换为数据驱动的底数 \((2+q)\)（依赖 Similarity），将固定温度 \(\tau\) 替换为实例级的 Distance \(d\)——使激活函数的输出直接编码三个维度的认知不确定性。

方法详解¶

整体框架¶

SDM 系统包含三层：(1) 冻结的预训练 LM 提供隐藏状态 \(\mathbf{h}\)；(2) exemplar adaptor（1-D CNN + 线性层）将 \(\mathbf{h}\) 映射为紧凑表示 \(\mathbf{h}'\) 和新 logits \(\mathbf{z}'\)；(3) SDM 激活层利用 \(\mathbf{h}'\) 计算 Similarity \(q\) 和 Distance \(d\)，与 \(\mathbf{z}'\) 结合输出校准的概率分布。在此之上，SDM 估计器通过数据驱动的经验 CDF 分区构建高可靠性区域用于选择性分类。

关键设计¶

Similarity（\(q\)）计算:
- 功能：量化测试实例与训练集中正确预测模式的深度匹配程度
- 核心思路：在 exemplar adaptor 的表示空间 \(\mathbf{h}'\) 中，对训练集按 \(L^2\) 距离排序，计算从最近邻开始连续满足以下条件的匹配数：(a) 训练样本的预测与当前实例预测相同（\(\hat{y} = \hat{y}^{tr}_{(i)}\)），(b) 训练样本预测正确（\(\hat{y}^{tr}_{(i)} = y^{tr}_{(i)}\)），(c) 匹配是连续的（中间不能有断裂）。\(q \in \{0, \ldots, |D_{tr}|\}\)，\(q=0\) 表示最近邻就不满足条件，有效指示分布外
- 设计动机：与传统 KNN 规则不同，SDM 的 Similarity 同时利用了模型预测和真实标签——如果训练集中距离最近的样本不仅标签相同且预测正确，说明模型在该区域有可靠的判别能力
Distance（\(d\)）计算:
- 功能：量化测试实例到训练分布的归一化距离
- 核心思路：首先计算到训练集最近邻的 \(L^2\) 距离 \(d_{\text{nearest}}\)。然后使用校准集 \(D_{ca}\) 中各类别的经验 CDF 进行归一化：\(d = \min[1 - \text{eCDF}^{y_1}_{ca}(d_{\text{nearest}}), \ldots, 1 - \text{eCDF}^{y_C}_{ca}(d_{\text{nearest}})]\)。当 \(d_{\text{nearest}}\) 超过标记数据中观测到的最大距离时 \(d=0\)，SDM 输出均匀分布，表示最大不确定性
- 设计动机：取所有类别 CDF 的最小值确保了保守估计——即使对于某些类别距离看起来正常，只要相对于任何一个类别距离异常大就会触发高不确定性
SDM 激活与高可靠性区域估计:
- 功能：将三个维度整合为校准的概率分布，并自动识别高可靠性预测区域
- 核心思路：SDM 激活 \(\text{sdm}(\mathbf{z}')_i = (2+q)^{d \cdot z'_i} / \sum_c (2+q)^{d \cdot z'_c}\)。对应损失使用换底公式 \(\log_{(2+q)}\)。高可靠性区域通过以下步骤确定：先计算重缩放值 \(q' = \min(q, (2+q)^{\text{sdm}(\mathbf{z}')_{\hat{y}}})\)，然后在 \(q' > 0\) 的子集上逐步增大 \(q'_{\min}\) 阈值，直到所有类别的保形阈值 \(\psi_c\) 都达到目标置信水平 \(\alpha\)（如 0.95）。满足 \(q' \geq q'_{\min}\) 且 \(\text{sdm}(\mathbf{z}')_{\hat{y}} \geq \psi_{\hat{y}}\) 的预测进入高可靠性区域
- 设计动机：通过渐进收紧 \(q'\) 阈值找到同时满足类别条件和预测条件准确率的区域，提供理论上有保证的选择性分类。当找不到有限 \(q'_{\min}\) 时，说明模型或数据不足以支撑可靠估计

损失函数 / 训练策略¶

使用 SDM 损失训练 exemplar adaptor（1-D CNN + 线性层），冻结底层 LM 参数。首轮训练以标准 softmax 初始化（\(q=e-2, d=1\)），后续每轮重新计算 \(q\) 和 \(d\)。停止条件为校准集上最低的类别平衡损失。重复 \(J=10\) 次随机划分和参数初始化，选全局最优。CNN 使用 \(M=1000\) 个滤波器，每轮训练 200 个 epoch。

实验关键数据¶

主实验¶

情感分类（Sentiment，同分布）选择性分类表现（\(\alpha=0.95\)）

模型+估计器	类别条件 y=0	y=1	预测条件 \(\hat{y}\)=0	\(\hat{y}\)=1	接纳比例
phi3.5 softmax	0.98	0.86 (<α)	0.88 (<α)	0.98	0.98
phi3.5 tempScaling	0.99	0.91 (<α)	0.93 (<α)	0.99	0.90
phi3.5+sdm sdmHR	1.00	0.99	0.99	1.00	0.68
Mixtral8x7B softmax	0.98	0.88 (<α)	0.89 (<α)	0.98	1.00
Mixtral8x7B+sdm sdmHR	0.99	0.98	0.99	0.98	0.74

情感分类 OOD（SentimentOOD，分布外）

模型+估计器	类别条件 y=0	y=1	接纳比例	说明
phi3.5 softmax	1.00	0.54 (<α)	0.96	过度自信，大量错误
phi3.5 APS	1.00	0.59 (<α)	0.77	仍然不达标
phi3.5+sdm sdmHR	1.00	1.00	0.01	几乎全部拒绝 OOD

消融实验¶

组件	效果	说明
softmax（无适配器）	类别条件准确率不达标	缺乏 Similarity 和 Distance
softmax（有适配器）	ID 达标但 OOD 失败	有更好表示但无距离感知
softmax(\(d \cdot \mathbf{z}'\))	过度保守（ID 接纳率低）	仅用 Distance 做温度，缺 Similarity
sdm\(_\alpha\)（简单阈值）	预测条件达标但类别条件不保证	缺少高可靠性区域约束
sdmHR（完整估计器）	两维条件均达标	Similarity+Distance+Magnitude 三维协同

关键发现¶

在同分布数据上，没有适配器的 softmax/tempScaling/APS/RAPS 估计器普遍出现过度自信，类别条件准确率低于目标 \(\alpha=0.95\)
在分布外数据上差异更加戏剧化——phi3.5+sdm 的 sdmHR 估计器将 SentimentOOD 的接纳率降至约 1%（几乎全部拒绝），而 softmax 仍接纳 96% 的 OOD 数据且 y=1 类准确率仅 0.54
当 Alg. 1 返回 \(q'_{\min} = \infty\) 时，提供了模型/数据不足以支撑可靠估计的实用指标
Factcheck 任务上，softmax 和 APS 在协变量偏移的测试集上类别条件准确率严重不达标，sdmHR 则适当收紧接纳范围维持可靠性

亮点与洞察¶

Similarity 的定义非常巧妙——不仅要求最近邻标签相同，还要求模型对这些最近邻的预测也正确，且必须是连续的。这比传统 KNN 多了一个"模型在该区域是否可靠"的判断维度
SDM 的数学形式优雅——将 softmax 的底数和温度从固定常数推广为数据驱动的实例级变量，当 \(q=e-2, d=1\) 时精确退化为标准 softmax
高可靠性区域的概念对多阶段 LLM 管道有直接价值——自动化预测进入高可靠性区域，其余分流到更昂贵的工具或人工审核

局限与展望¶

exemplar adaptor 需要维护完整的训练集用于 Similarity 和 Distance 计算，大规模数据集上的存储和检索效率是问题
仅在二分类任务上验证（情感分析、事实检查），多类别和更复杂的 NLP 任务需进一步测试
\(q\) 的计算需要遍历训练集按距离排序，实时推理延迟需要优化（可能通过近似最近邻搜索）
假设 exemplar adaptor 能够有效地在冻结 LM 之上学习判别性表示，对于某些任务这一假设可能不成立

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将 softmax 的底数和温度从常数推广为数据驱动变量，三维认知不确定性分解开创性
实验充分度: ⭐⭐⭐⭐ 系统的 ID/OOD/远 OOD 对比和多估计器消融，但任务范围偏窄（仅二分类）
写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨，从 softmax 到 SDM 的推广路径清晰，符号体系一致
价值: ⭐⭐⭐⭐ 为 LLM 部署中的不确定性量化提供了理论基础更强的方案，高可靠性区域概念有广泛应用潜力