Adaptive Confidence Regularization for Multimodal Failure Detection¶

会议: CVPR2026 arXiv: 2603.02200 代码: mona4399/ACR 领域: 医学图像 / 多模态可靠性 关键词: 多模态失败检测, 置信度退化, 自适应置信度正则化, 特征交换, 误分类检测, 选择性分类

一句话总结¶

提出 ACR 框架，通过自适应置信度损失（惩罚多模态融合置信度低于单模态的"置信度退化"现象）和多模态特征交换（在特征空间合成失败样本）两个互补模块，首次系统解决多模态场景下的误分类检测问题，在四个数据集上全面超越已有方法。

高风险部署需求：多模态模型在自动驾驶、医学诊断等安全关键场景广泛应用，仅追求高准确率远远不够，还需可靠地检测出不可信预测（failure detection, FD）
单模态 FD 方法不适用：现有 FD 方法主要面向单模态，无法利用跨模态互补信息，也无法处理多模态特有的信号冲突与对齐失效等失败模式
OOD 检测方法在 FD 上失效：实验表明 Energy、Entropy、MaxLogit 等 OOD 方法在 FD 任务上竟不如最简单的 MSP 基线，说明直接搬用 OOD 技术行不通
多模态信号本身蕴含 FD 线索：简单的视频+光流融合已能大幅提升 FD 性能，证明多模态输入对 FD 有巨大潜力，但缺乏专门框架加以利用
置信度退化现象：作者发现误分类样本中，融合后置信度低于某一单模态置信度的比例远高于正确样本（HMDB51 上高出 32.4%，HAC 上高出 52.4%），这一"置信度退化"现象可作为失败的强指示信号
缺乏真实失败训练样本：传统 Outlier Exposure 依赖大规模外部数据集且无法合成跨模态冲突这类多模态特有失败模式，OpenMix 等单模态方法也不适用

ACR（Adaptive Confidence Regularization）包含两个互补模块：

架构上，M 个模态分支各有编码器 \(g_k(\cdot)\) 提取嵌入 \(\mathbf{E}^k\)，拼接后送入融合分类器 \(h(\cdot)\) 得到多模态预测 \(\hat{p}\)；同时每个模态有独立分类器 \(h_k(\cdot)\) 得到单模态预测 \(\hat{p}^k\)。

定义融合置信度 \(\text{conf} = \max_y \hat{p}\)，单模态置信度 \(\text{conf}_k = \max_y \hat{p}^k\)。ACL 对两模态情形：

\[\mathcal{L}_{\text{acl}} = \frac{1}{2}\left(\max(0, \text{conf}_1 - \text{conf}) + \max(0, \text{conf}_2 - \text{conf})\right)\]

从每个模态嵌入中随机选取 \(n_{\text{swap}} \sim \mathcal{U}(n_{\min}, n_{\max})\) 个连续维度进行交换，得到扰动特征 \(\mathbf{E}_o\)
软标签通过原始标签与离群类插值：\(\mathbf{y}_{\text{swapped}} = (1-\lambda)\mathbf{y}_{\text{true}} + \lambda\mathbf{y}_{\text{outlier}}\)，其中 \(\lambda = n_{\text{swap}} / n_{\max}\)
小交换量 → 靠近分布内的困难负样本；大交换量 → 远离分布的明确离群点（可控性强）
不需要任何外部数据，直接在特征空间操作，计算高效

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{cls}} + \mathcal{L}_{\text{outlier}} + \lambda_{\text{acl}} \mathcal{L}_{\text{acl}}\]

推理时仅对原始 C 类做 MSP 评分，无额外计算开销。

数据集	方法	AURC↓	AUROC↑	FPR95↓	ACC↑
HMDB51	MSP	29.56	88.28	52.07	86.20
HMDB51	ACR	19.97	92.02	41.96	87.23
HAC	MSP	42.90	89.27	66.67	82.11
HAC	ACR	27.41	91.48	39.39	84.86
Kinetics-600	MSP	46.29	87.33	61.29	81.24
Kinetics-600	ACR	41.85	88.99	55.89	81.45
EPIC-Kitchens	最优基线 (RegMixup)	105.25	79.26	78.19	74.53
EPIC-Kitchens	ACR	103.25	79.27	71.58	75.20

在所有数据集上 ACR 均为最优，AURC 最高改进 9.58%、FPR95 最高改进 15.45%，同时分类准确率也有提升。

配置	AURC↓	AUROC↑	FPR95↓	ACC↑
MSP baseline	29.56	88.28	52.07	86.20
+ ACL only	24.48	90.32	43.97	86.77
+ MFS only	25.11	90.55	46.22	86.43
ACL + MFS	19.97	92.02	41.96	87.23

两个模块各自有效，组合后效果最佳，体现互补性。

方法	类型	是否多模态	是否需要外部数据	FD 效果
MSP / MaxLogit / Energy	评分函数	✗	✗	基线水平
DOCTOR	置信度学习	✗	✗	微弱提升
OpenMix	离群合成	✗	✓	中等
CRL	置信度正则化	✗	✗	中等
A2D	多模态 OOD	✓	✗	中等（OOD 向）
ACR	多模态 FD 专用	✓	✗	最优