跳转至

Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect

会议: AAAI 2026
arXiv: 2511.14317
代码: GitHub
领域: 医学图像 / 临床机器学习
关键词: Rashomon Effect, 模型选择, 干预效率, 扰动验证, 类别不平衡, 临床部署

一句话总结

针对临床小样本、类别不平衡场景下多个模型性能相近(Rashomon Effect)导致的模型选择困难,提出 Intervention Efficiency (IE) 容量感知评估指标和 Perturbation Validation Framework (PVF) 鲁棒性验证框架,联合实现资源约束下的可靠模型选择。

研究背景与动机

临床预测建模的核心挑战

小样本 + 类别不平衡:临床数据采集成本高、伦理约束严格,阳性事件(如不良反应)仅占极少比例,导致传统准确率指标具有误导性

Rashomon Effect(模型多重性):在小数据集上,不同模型(如逻辑回归、SVM、随机森林)可能达到相近的性能,但依赖完全不同的特征子集,使得"选哪个"成为难题

传统指标的局限性: - F1 Score 忽略真阴性,可能偏好次优模型 - AUC-ROC 在不平衡数据上高估性能 - AUC-PR 虽更适合稀有事件,但对流行率敏感、临床解释性差

验证不稳定性:小数据集放大方差,不同数据划分下模型排名可能剧烈变化,单次 split 的验证结果不可靠

核心动机

  • 资源约束未被考虑:临床场景中往往只能干预有限数量的患者,但现有指标均不考虑"干预容量"
  • 鲁棒性被忽视:传统验证仅提供点估计,不评估模型在数据扰动下的稳定性
  • 需要单一可部署模型:临床优先需要可解释的单模型预测,而非集成方法

方法详解

整体框架

提出两个互补工具:

┌─────────────────────────────────────────────────────┐
│           模型候选集 F = {f₁, f₂, ..., f_Q}          │
├───────────────┬─────────────────────────────────────┤
│  IE 指标评估   │        PVF 鲁棒性筛选               │
│  (容量感知)    │     (扰动验证 + 聚合选择)            │
│               │  原始验证集 → M 个扰动验证集           │
│  IE_γ(f,D)    │  → 每个模型在 M 个集上评估            │
│               │  → 聚合为单一鲁棒性分数               │
├───────────────┴─────────────────────────────────────┤
│           选择 f* = argmax A_f                       │
└─────────────────────────────────────────────────────┘

关键设计 1:Intervention Efficiency (IE)

核心思想:量化在有限干预容量 γ(可干预人数占总人口比例)下,模型引导的干预相比随机干预能多捕获多少真正阳性案例。

闭式公式

\[IE_\gamma(f) = \frac{s \cdot p + (\gamma - s) \cdot \frac{\pi - s \cdot p}{1 - s}}{\gamma \cdot \pi}\]

其中: - \(p\) = 精确率,\(r\) = 召回率,\(\pi\) = 流行率 - \(s = \min(\gamma, \frac{\pi r}{p})\),表示实际可使用的模型引导干预比例 - \(\gamma = c / \beta\),干预容量与总人口的比值

两种运行机制: - 资源稀缺(Regime A):模型预测的阳性数 > 干预容量 c,只能干预 top-c 个,IE 简化为 \(\beta p / \alpha\) - 资源充裕(Regime B):干预容量足以覆盖所有模型预测阳性,剩余容量随机分配

关键设计 2:Perturbation Validation Framework (PVF)

流程: 1. 固定原始验证集 \(\mathcal{D}_{val}\) 2. 对每个样本的特征独立施加扰动,生成 M 个扰动验证集(每个含 k·n 个样本) 3. 在每个扰动验证集上评估所有候选模型 4. 用聚合函数 \(\mathcal{A}\)(如 25% 分位数)将 M 个分数合并为单一鲁棒性指标 5. 选择聚合分数最高的模型:\(f^* = \arg\max_{f \in \mathcal{F}} A_f\)

扰动机制(按特征类型区分):

特征类型 扰动方式 控制参数
数值型 加高斯噪声 \(\varepsilon \sim \mathcal{N}(0, \sigma^2)\) 噪声标准差 σ
类别型(名义) 以概率 ξ 随机翻转为其他类别(均匀采样) 翻转概率 ξ
有序型(序数) 以概率 ξ 按距离衰减采样邻近类别 翻转概率 ξ,衰减参数 λ

关键超参数: - \(d\):被扰动的特征数量 - \(k\):每个原始样本的副本数(保持分布和类别不平衡) - \(M\):扰动验证集数量 - \(\mathcal{A}\):聚合函数(实验中使用 Q1 即 25% 分位数)

计算复杂度\(\mathcal{O}(Q \cdot M \cdot k \cdot n \cdot d)\),无需重新训练模型。

为何不在验证集上扰动标签?

论文明确排除了标签扰动:翻转标签会不成比例地惩罚强模型(因为它们此前预测正确的样本被翻转),同时对弱模型影响很小,导致性能差异被压缩甚至反转。在高度不平衡数据集中,即使翻转少量标签也会剧烈改变精确率和召回率。

理论保证

论文在附录中提供了 PVF 的完整理论分析: - 命题 B.1:扰动分数具有 i.i.d. 结构 - 命题 B.2–B.4:PVF 分数在 M、k、n → ∞ 时分别收敛 - 命题 B.5:统一收敛性保证 - 命题 B.6:PVF 选择的一致性——渐近选出最优模型 - 命题 B.7:PVF 本质上是朝用户指定属性 \(\Phi_{A,K}\) 的最优化选择

实验

主实验:合成数据

设置:2 个信息特征 + 3 个噪声特征,10 对特征组合 → 10 个候选逻辑回归模型,5000 次重复。

配置 数据量 n 类别分离度 μ 扰动噪声 σ 总组合数
数据量 50, 100 2
分离度 0.1–2.9 (步长 0.2) 15
扰动噪声 1e-6 ~ 0.1 6
总计 180 组 × 5000 次

主要发现(Figure 3): - γ=0.1 和 γ=0.3 时,PVF 在约 90% 的配置中优于传统方法 - γ 增大时优势缩小但仍保持领先 - 在 F1/accuracy 指标下同样一致优于传统方法

主实验:真实临床数据

数据集: - 宫颈癌数据集(808 样本,34 特征):最佳 σ=0.01 (IE) / σ=1e-6 (F1) - 乳腺癌数据集(569 样本,30 特征):最佳 σ=0.2–0.3

数据集 γ PVF 胜率 传统方法胜率 平局
宫颈癌 0.1 60.0% 26.7% 13.3%
宫颈癌 0.3–0.9 43.3–46.7% 33.3–36.7% ~20%
宫颈癌 F1 50.0% 33.3% 16.7%
乳腺癌 0.1 52.0% 20.0% 28.0%
乳腺癌 0.3 48.0% 20.0% 32.0%
乳腺癌 F1 52.0% 16.0% 32.0%

消融实验:σ 敏感性分析

场景 最佳 σ 范围 关键规律
低分离度 (μ ≤ 0.9) σ ≤ 1e-3 小扰动即可带来稳定正向增益
中分离度 (μ 1.1–1.9) σ 小或 σ=0.1 中等扰动反而降低优势,最大扰动恢复
高分离度 (μ ≥ 2.1) σ=0.1 大扰动一致放大 PVF 优势
宫颈癌真实数据 σ ≈ 0.01 小 σ 最有效
乳腺癌真实数据 σ ≈ 0.2–0.3 需要较大 σ

关键发现: - σ 是 PVF 最关键的超参数,无通用最优值,需按数据集调参 - 经验上 σ=0.01 是合理起点 - γ 越小(干预容量越受限),PVF 的优势越显著 - PVF 不需要重训模型,计算开销可控

亮点

  1. IE 指标的创新性:首次将干预容量约束显式纳入评估指标,闭式公式优雅且可解释,直接连接精确率-召回率权衡与临床资源限制
  2. PVF 的灵活性:与任意评估指标兼容(IE、F1、accuracy 等),可与交叉验证组合使用,不需重训模型
  3. 理论完备:提供了 PVF 收敛性和选择一致性的完整证明链(6 个命题)
  4. 实验设计严谨:合成实验 180 × 5000 = 90 万次重复,充分探索超参数空间
  5. 临床导向:强调可解释单模型部署,而非黑盒集成

局限性

  1. σ 调参依赖先验知识:扰动噪声的最佳尺度因数据集而异,需要领域专家输入或额外的超参数搜索
  2. 仅验证二分类场景:IE 的闭式公式针对二分类推导,多分类扩展尚未完成
  3. 真实数据实验规模有限:仅在 2 个公开数据集上验证,临床场景多样性不足
  4. 未考虑公平性约束:IE 未纳入不同亚群的公平性因素
  5. 未与更强 baseline 对比:如 nested CV、Bayesian model selection 等成熟方法
  6. 领域分类存疑:该工作更偏"临床 ML 评估方法论"而非传统意义上的"医学图像"研究

相关工作

  • Rashomon Effect:Breiman (2001) 提出"两种文化"论述;Rudin et al. (2024) 倡导利用模型多样性
  • 扰动鲁棒性:Mutation Validation (Zhang et al. 2023) 在训练标签上注入噪声;PVF 区别在于仅在验证集特征上加噪
  • 临床可解释模型:FIGS (Tan et al. 2022)、稀疏逻辑回归等侧重模型本身可解释性,PVF 侧重选择过程的可靠性
  • 交叉验证改进:Nested CV (Wainer & Cawley 2021) 在小数据上仍不稳定,PVF 可与之互补

评分

  • 新颖性: ⭐⭐⭐⭐ — IE 指标和 PVF 框架的组合提供了全新视角,将资源约束与鲁棒性评估统一
  • 实验充分度: ⭐⭐⭐⭐ — 合成实验极为充分(90万次重复),真实数据实验规模偏小
  • 写作质量: ⭐⭐⭐⭐ — 数学推导清晰严谨,理论证明完整,但正文与附录比例失衡(大量内容在附录)
  • 实用价值: ⭐⭐⭐⭐ — 对资源受限的临床部署场景有直接应用价值,σ 调参问题制约了即插即用的易用性

相关论文