Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance¶

会议: CVPR 2026
arXiv: 2603.29941
代码: https://github.com/Kainmueller-Lab/aggrigator (有)
领域: 医学影像
关键词: 不确定性量化, 分割聚合, OoD检测, 故障检测, 空间感知聚合

一句话总结¶

首次系统研究分割任务中像素级不确定性到图像级分数的聚合策略，提出融合空间结构信息的聚合方法（基于Moran's I、Edge Density、Shannon Entropy的空间质量比SMR），以及GMM元聚合器，在10个数据集的OoD和故障检测任务上验证了空间感知聚合显著优于全局平均。

研究背景与动机¶

领域现状：在医学影像和自动驾驶等安全关键领域，分割模型的不确定性量化(UQ)产出像素级不确定性图，需要聚合为图像级标量用于OoD检测和故障检测等下游任务。全局平均(AVG)是默认选择。

现有痛点：(1) 缺乏系统研究——尽管聚合广泛使用，但其性质和对下游性能的影响无全面研究；(2) AVG忽略空间结构——无法捕捉局部化的不确定性模式（如边界不确定性、聚类不确定性）；(3) 现有替代策略缺乏系统比较，报告不一致。

核心矛盾：分割中的OoD或错误敏感性通常反映在局部不确定性模式中，但简单像素平均消除了这些空间信息。

切入角度：不确定性的"空间形状"与"幅度"同样重要。

核心idea：提出空间质量比(SMR)——高空间结构区域的不确定性占比，以及GMM元聚合器统一强度基和空间特征。

方法详解¶

整体框架¶

输入：分割模型输出的2D不确定性图 \(U \in [0,1]^{m \times n}\)。输出：图像级标量用于OoD/故障检测。流程：对不确定性图应用多种聚合函数→组合为特征向量→GMM建模分布内特征→负对数似然作为异常分数。

关键设计¶

常用聚合策略的形式化分析与缺陷:
- AVG：不敏感空间结构——均匀低不确定和紧凑高不确定产生相同分数
- AQA (Above-Quantile Average)：缺乏比例不变性——裁剪背景后分数变化
- ATA (Above-Threshold Average)：非单调性——全局不确定性增加可能导致分数下降
- BCA/ICA (类级加权平均)：利用预测信息，比例不变，性能稳定
空间聚合策略（核心创新）:
- 功能：提出空间质量比(SMR)——捕捉不确定性的空间分布结构
- 核心思路：SMR = 高空间结构区域平均不确定性 / 全局平均不确定性
- SMR_Moran (MOR)：基于Moran's I空间自相关，SMR=0（噪声区）→1（聚类区）
- SMR_EDS (EDS)：基于Edge Density，SMR=0（平坦区）→1（边缘集中区）
- SMR_Entropy (ENT)：基于Shannon Entropy，SMR=0（常数区）→1（高变异区）
- 设计动机：经典空间分析工具应用于不确定性图，刻画不确定性的"形状"
GMM元聚合器:
- 功能：统一多个聚合策略为鲁棒的通用方案
- 核心思路：将各聚合函数输出视为特征向量 \(f_U = (f_1(U), ..., f_d(U))\)，在分布内样本上拟合GMM \(p_{GMM}(f_U)\)，用BIC确定最优模式数，元聚合分数为负对数似然 \(f_{meta} = -\ln p_{GMM}(f_U)\)
- 三个变体：GMM-Spa（仅空间）、GMM-Int（仅强度）、GMM-All（空间+强度，推荐）
- 设计动机：单一聚合器高度依赖数据集特性，GMM概率建模实现跨数据集鲁棒性

实验设置¶

10个数据集覆盖医学影像（LIDC/Lizard/ARC/WORM）、自动驾驶（GTA→Cityscapes）、农业（WEED）场景。Monte Carlo Dropout生成不确定性图，额外验证了Deep Ensembles和MSP。

实验关键数据¶

主实验（OoD检测AUROC）¶

聚合策略	LIDC-Mal	CAR-CS	WORM-Pro	LIZ-IG	平均排名
AVG	~0.78	~0.65	~0.72	~0.79	低
ATA	~0.62	~0.58	~0.68	~0.72	最低
BCA	~0.82	~0.88	~0.85	~0.81	第一梯队
ICA	~0.81	~0.87	~0.84	~0.80	第一梯队
GMM-All	~0.80	~0.91	~0.88	~0.79	第一梯队

统计检验(Wilcoxon p<0.05)：BCA、ICA和GMM-All形成显著优越的第一层。

故障检测（E-AURC，越低越好）¶

聚合策略	关键发现
AVG	排名最低，严重低估完全误分类样本的不确定性
QFR	排名最高(p<0.001)，基于前景比例的阈值
GMM-All	与QFR可比，无需超参调整
ATA	OoD差但FD好，因分割错误集中在高不确定边界

关键发现¶

AVG在6/10场景中接近随机猜测，不应作为默认选择
预测基方法（BCA/ICA）和GMM-All形成统计显著的第一梯队
空间结构在特定场景下起关键作用：EDS在CAR-CS数据集主导OoD分离（SHAP分析验证）
GMM-All的鲁棒性来自组合强度+空间特征，即使移除单个聚合器影响也很小（留一分析）
不同UQ方法（MCD、Ensembles、MSP）下趋势一致

亮点与洞察¶

系统化研究的开创性价值：首次对分割不确定性聚合策略进行全面跨数据集基准测试，建立了最佳实践——AVG不应是默认选择，GMM-All是鲁棒默认方案
空间分析工具的引入：Moran's I、Edge Density等经典空间统计指标应用于不确定性分析是自然但被忽视的方向
参数高效的元聚合：GMM拟合不增加推理复杂度，通过特征空间工作自动适应不同数据集异质性

局限与展望¶

GMM假设分布内特征服从高斯混合，在特征维度高或分布复杂时可能失效（如LIZ-IG的失败案例）
需要足够的分布内样本来稳定GMM拟合
当前空间度量是手工选择的，可探索学习型空间特征
可扩展到3D医学影像和视频分割的时空不确定性聚合

评分¶

新颖性: ⭐⭐⭐⭐ 空间聚合和GMM元聚合思路新颖，但概念基于成熟的空间统计方法
实验充分度: ⭐⭐⭐⭐⭐ 10个数据集、两个下游任务、多UQ方法、详细统计分析和消融
写作质量: ⭐⭐⭐⭐⭐ 问题陈述清晰、理论分析严谨、实验设计系统
价值: ⭐⭐⭐⭐⭐ 为安全关键应用的可靠分割提供实用指南，开源工具提升应用价值

Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance¶

会议: CVPR 2026
arXiv: 2603.29941
代码: https://github.com/Kainmueller-Lab/aggrigator (有)
领域: 医学影像
关键词: 不确定性量化, 空间聚合策略, OoD检测, 失败检测, 元聚合

一句话总结¶

首次系统研究分割任务中像素级不确定性到图像级评分的聚合策略，提出融合空间结构信息（Moran's I、边缘密度、Shannon熵）的SMR聚合器和基于GMM的元聚合器，在10个数据集上证明全局平均(AVG)是次优选择，GMM-All元聚合在OoD和失败检测上表现稳健。

研究背景与动机¶

领域现状：在医学影像和自动驾驶等安全关键应用中，分割模型需要输出置信度。UQ方法能为每个像素生成不确定性分数，但实际需将像素级不确定性聚合为单一图像级标量用于OoD检测和失败检测。
现有痛点：(1) 全局平均(AVG)是默认选择，但忽略空间结构信息；(2) 各种替代策略（patch级、类别级、阈值级）缺乏系统比较；(3) 现有策略存在理论缺陷——AQA缺乏比例不变性，ATA非单调。
核心矛盾：分割中的OoD性或错误敏感性通常反映在局部不确定性模式中（如未见类别区域、模糊边界），但简单的像素平均会掩盖这些关键的局部变化。
切入角度：观察到不确定性的空间分布模式（如集中在聚类区域vs.沿边界分布）包含重要的诊断信息，需要空间感知的聚合方法来捕捉。
核心idea：提出空间质量比(SMR)——度量高空间结构区域中不确定性质量的占比，并通过GMM元聚合器融合多种聚合策略的输出。

方法详解¶

整体框架¶

输入：分割模型产出的像素级不确定性图 \(U \in [0,1]^{m \times n}\)。输出：单一标量 \(f(U) \in \mathbb{R}\)，用于OoD或失败检测。两大类聚合策略：(1) 强度基（pixel-level和prediction-based）；(2) 空间感知（基于空间结构度量）。最终通过GMM元聚合统一。

关键设计¶

常用聚合策略的问题分析:
- AVG（全局平均）：空间结构不敏感——同一像素值分布的不同空间配置产生相同得分
- AQA（分位数上平均）：缺乏比例不变性——裁剪背景像素会改变分数
- ATA（阈值上平均）：非单调——全局像素不确定性增加可能反而减少结果分数
- BCA/ICA（类别平均）：预测基方法，利用分割掩码信息，满足比例不变性
空间聚合策略（SMR）:
- 功能：计算高空间结构区域中不确定性质量的占比
- 核心思路：用空间度量加权不确定性图，计算高结构区域的平均不确定性/全局平均不确定性的比值
- 三种实现：
- SMR_Moran (MOR)：Moran's I度量空间自相关，0=噪声分布，1=完全聚类
- SMR_EDS (EDS)：边缘密度得分，0=平坦区域，1=边缘集中
- SMR_Entropy (ENT)：Shannon熵反映局部异质性，0=常数区域，1=高变异性
- 设计动机：不同空间模式对应不同类型的异常——聚类不确定性（新物体）、边缘不确定性（边界模糊）、高变异性（分类不稳定）
GMM元聚合器:
- 功能：融合多种聚合策略为统一的异常检测分数
- 核心思路：将不确定性图表示为多维特征向量 \(f_U = (f_1(U), ..., f_d(U))\)，用GMM拟合iD样本的特征分布 \(p_{GMM}(f_U)\)，元聚合分数为负对数似然 \(f_{meta}(U) = -\ln p_{GMM}(f_U)\)
- 三种变体：GMM-Spa（仅空间）、GMM-Int（仅强度）、GMM-All（全部特征）
- 设计动机：单一聚合器性能高度依赖数据集特性，GMM-All通过概率建模自适应捕捉多维度特征差异

实验设置¶

10个数据集：合成组织病理(ARC)、Lizard病理、LIDC肺结核CT、C. Elegans微生物、GTA/Cityscapes城市场景、WeedsGalore作物。多种分割架构（U-Net/HRNet/DeepLabv3+），MC Dropout获取不确定性。

实验关键数据¶

主实验（OoD检测 AUROC）¶

聚合策略	LIDC-Mal	CAR-CS	WORM-Pro	LIZ-IG	平均排名
AVG	次优(部分)	接近随机	差	竞争力	低
AQA	差	差	差	中等	低
BCA	好	好	好	好	第一梯队
ICA	好	好	好	好	第一梯队
GMM-All	好	最优	最优	中等	第一梯队

统计显著性检验(Wilcoxon p<0.05)：BCA、ICA和GMM-All形成统计显著的第一梯队。

失败检测实验（E-AURC，越低越好）¶

聚合策略	统计排名
QFR	统计显著最优 (p<0.001)
BCA	第二梯队
GMM-All	第二梯队，与QFR接近
AVG	最差（除合成数据外）

关键发现¶

AVG在6/10场景中表现差，接近随机猜测，不应作为默认选择
GMM-All在OoD检测中稳健性最强（跨数据集表现一致），在FD中接近最优QFR
SHAP分析表明：EDS在CAR数据集上主导OoD分离能力，但在LIZ-IG上所有特征都未能提供清晰分离
不同UQ方法（MCD、Deep Ensembles、MSP、TTA）下趋势一致，验证了聚合策略分析的通用性

亮点与洞察¶

系统化的benchmark价值：首次对分割聚合策略进行全面、跨数据集、跨任务（OoD+FD）的系统性比较，推翻了"AVG够用"的默认假设
空间质量比(SMR)的直觉：不确定性的"形状"（聚类/边缘/噪声）和"大小"（平均值）同等重要，这对UQ领域有深远影响
GMM元聚合的参数高效性：无需增加推理复杂性，只需在iD集上拟合GMM（一次性），即可统一多个聚合器的优点

局限与展望¶

GMM假设iD特征服从GMM，在特征高维或多峰分布时可能失效（如LIZ-IG的失败案例）
需要iD集来拟合GMM，对冷启动场景有依赖
当前仅2D分割，扩展到3D医学分割（体积占据）或视频分割（时空不确定性）值得探索
可研究在线GMM更新支持持续学习场景

评分¶

新颖性: ⭐⭐⭐⭐ 空间聚合+元聚合的思路新颖，但各组件基于成熟的空间统计方法
实验充分度: ⭐⭐⭐⭐⭐ 10个多样数据集、两个下游任务、多UQ方法、SHAP分析、统计检验
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，理论分析充分
价值: ⭐⭐⭐⭐⭐ 为安全关键应用提供了实用的聚合选择指南，开源工具

Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验设置¶

实验关键数据¶

主实验（OoD检测AUROC）¶

故障检测（E-AURC，越低越好）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

Better than Average: Spatially-Aware Aggregation of Segmentation Uncertainty Improves Downstream Performance¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验设置¶

实验关键数据¶

主实验（OoD检测 AUROC）¶

失败检测实验（E-AURC，越低越好）¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

相关论文¶