Intervention Efficiency and Perturbation Validation Framework: Capacity-Aware and Robust Clinical Model Selection under the Rashomon Effect¶

会议: AAAI 2026
arXiv: 2511.14317
代码: GitHub
领域: 医学图像 / 临床机器学习
关键词: Rashomon Effect, 模型选择, 干预效率, 扰动验证, 类别不平衡, 临床部署

一句话总结¶

针对临床小样本、类别不平衡场景下多个模型性能相近（Rashomon Effect）导致的模型选择困难，提出 Intervention Efficiency (IE) 容量感知评估指标和 Perturbation Validation Framework (PVF) 鲁棒性验证框架，联合实现资源约束下的可靠模型选择。

研究背景与动机¶

临床预测建模的核心挑战¶

小样本 + 类别不平衡：临床数据采集成本高、伦理约束严格，阳性事件（如不良反应）仅占极少比例，导致传统准确率指标具有误导性

Rashomon Effect（模型多重性）：在小数据集上，不同模型（如逻辑回归、SVM、随机森林）可能达到相近的性能，但依赖完全不同的特征子集，使得"选哪个"成为难题

传统指标的局限性： - F1 Score 忽略真阴性，可能偏好次优模型 - AUC-ROC 在不平衡数据上高估性能 - AUC-PR 虽更适合稀有事件，但对流行率敏感、临床解释性差

验证不稳定性：小数据集放大方差，不同数据划分下模型排名可能剧烈变化，单次 split 的验证结果不可靠

核心动机¶

资源约束未被考虑：临床场景中往往只能干预有限数量的患者，但现有指标均不考虑"干预容量"
鲁棒性被忽视：传统验证仅提供点估计，不评估模型在数据扰动下的稳定性
需要单一可部署模型：临床优先需要可解释的单模型预测，而非集成方法

方法详解¶

整体框架¶

提出两个互补工具：

┌─────────────────────────────────────────────────────┐
│           模型候选集 F = {f₁, f₂, ..., f_Q}          │
├───────────────┬─────────────────────────────────────┤
│  IE 指标评估   │        PVF 鲁棒性筛选               │
│  (容量感知)    │     (扰动验证 + 聚合选择)            │
│               │  原始验证集 → M 个扰动验证集           │
│  IE_γ(f,D)    │  → 每个模型在 M 个集上评估            │
│               │  → 聚合为单一鲁棒性分数               │
├───────────────┴─────────────────────────────────────┤
│           选择 f* = argmax A_f                       │
└─────────────────────────────────────────────────────┘

关键设计 1：Intervention Efficiency (IE)¶

核心思想：量化在有限干预容量 γ（可干预人数占总人口比例）下，模型引导的干预相比随机干预能多捕获多少真正阳性案例。

闭式公式：

\[IE_\gamma(f) = \frac{s \cdot p + (\gamma - s) \cdot \frac{\pi - s \cdot p}{1 - s}}{\gamma \cdot \pi}\]

其中： - \(p\) = 精确率，\(r\) = 召回率，\(\pi\) = 流行率 - \(s = \min(\gamma, \frac{\pi r}{p})\)，表示实际可使用的模型引导干预比例 - \(\gamma = c / \beta\)，干预容量与总人口的比值

两种运行机制： - 资源稀缺（Regime A）：模型预测的阳性数 > 干预容量 c，只能干预 top-c 个，IE 简化为 \(\beta p / \alpha\) - 资源充裕（Regime B）：干预容量足以覆盖所有模型预测阳性，剩余容量随机分配

关键设计 2：Perturbation Validation Framework (PVF)¶

流程： 1. 固定原始验证集 \(\mathcal{D}_{val}\) 2. 对每个样本的特征独立施加扰动，生成 M 个扰动验证集（每个含 k·n 个样本） 3. 在每个扰动验证集上评估所有候选模型 4. 用聚合函数 \(\mathcal{A}\)（如 25% 分位数）将 M 个分数合并为单一鲁棒性指标 5. 选择聚合分数最高的模型：\(f^* = \arg\max_{f \in \mathcal{F}} A_f\)

扰动机制（按特征类型区分）：

特征类型	扰动方式	控制参数
数值型	加高斯噪声 \(\varepsilon \sim \mathcal{N}(0, \sigma^2)\)	噪声标准差 σ
类别型（名义）	以概率 ξ 随机翻转为其他类别（均匀采样）	翻转概率 ξ
有序型（序数）	以概率 ξ 按距离衰减采样邻近类别	翻转概率 ξ，衰减参数 λ

关键超参数： - \(d\)：被扰动的特征数量 - \(k\)：每个原始样本的副本数（保持分布和类别不平衡） - \(M\)：扰动验证集数量 - \(\mathcal{A}\)：聚合函数（实验中使用 Q1 即 25% 分位数）

计算复杂度：\(\mathcal{O}(Q \cdot M \cdot k \cdot n \cdot d)\)，无需重新训练模型。

为何不在验证集上扰动标签？¶

论文明确排除了标签扰动：翻转标签会不成比例地惩罚强模型（因为它们此前预测正确的样本被翻转），同时对弱模型影响很小，导致性能差异被压缩甚至反转。在高度不平衡数据集中，即使翻转少量标签也会剧烈改变精确率和召回率。

理论保证¶

论文在附录中提供了 PVF 的完整理论分析： - 命题 B.1：扰动分数具有 i.i.d. 结构 - 命题 B.2–B.4：PVF 分数在 M、k、n → ∞ 时分别收敛 - 命题 B.5：统一收敛性保证 - 命题 B.6：PVF 选择的一致性——渐近选出最优模型 - 命题 B.7：PVF 本质上是朝用户指定属性 \(\Phi_{A,K}\) 的最优化选择

实验¶

主实验：合成数据¶

设置：2 个信息特征 + 3 个噪声特征，10 对特征组合 → 10 个候选逻辑回归模型，5000 次重复。

配置	数据量 n	类别分离度 μ	扰动噪声 σ	总组合数
数据量	50, 100	—	—	2
分离度	—	0.1–2.9 (步长 0.2)	—	15
扰动噪声	—	—	1e-6 ~ 0.1	6
总计				180 组 × 5000 次

主要发现（Figure 3）： - γ=0.1 和 γ=0.3 时，PVF 在约 90% 的配置中优于传统方法 - γ 增大时优势缩小但仍保持领先 - 在 F1/accuracy 指标下同样一致优于传统方法

主实验：真实临床数据¶

数据集： - 宫颈癌数据集（808 样本，34 特征）：最佳 σ=0.01 (IE) / σ=1e-6 (F1) - 乳腺癌数据集（569 样本，30 特征）：最佳 σ=0.2–0.3

数据集	γ	PVF 胜率	传统方法胜率	平局
宫颈癌	0.1	60.0%	26.7%	13.3%
宫颈癌	0.3–0.9	43.3–46.7%	33.3–36.7%	~20%
宫颈癌	F1	50.0%	33.3%	16.7%
乳腺癌	0.1	52.0%	20.0%	28.0%
乳腺癌	0.3	48.0%	20.0%	32.0%
乳腺癌	F1	52.0%	16.0%	32.0%

消融实验：σ 敏感性分析¶

场景	最佳 σ 范围	关键规律
低分离度 (μ ≤ 0.9)	σ ≤ 1e-3	小扰动即可带来稳定正向增益
中分离度 (μ 1.1–1.9)	σ 小或 σ=0.1	中等扰动反而降低优势，最大扰动恢复
高分离度 (μ ≥ 2.1)	σ=0.1	大扰动一致放大 PVF 优势
宫颈癌真实数据	σ ≈ 0.01	小 σ 最有效
乳腺癌真实数据	σ ≈ 0.2–0.3	需要较大 σ

关键发现： - σ 是 PVF 最关键的超参数，无通用最优值，需按数据集调参 - 经验上 σ=0.01 是合理起点 - γ 越小（干预容量越受限），PVF 的优势越显著 - PVF 不需要重训模型，计算开销可控

亮点¶

IE 指标的创新性：首次将干预容量约束显式纳入评估指标，闭式公式优雅且可解释，直接连接精确率-召回率权衡与临床资源限制
PVF 的灵活性：与任意评估指标兼容（IE、F1、accuracy 等），可与交叉验证组合使用，不需重训模型
理论完备：提供了 PVF 收敛性和选择一致性的完整证明链（6 个命题）
实验设计严谨：合成实验 180 × 5000 = 90 万次重复，充分探索超参数空间
临床导向：强调可解释单模型部署，而非黑盒集成

局限性¶

σ 调参依赖先验知识：扰动噪声的最佳尺度因数据集而异，需要领域专家输入或额外的超参数搜索
仅验证二分类场景：IE 的闭式公式针对二分类推导，多分类扩展尚未完成
真实数据实验规模有限：仅在 2 个公开数据集上验证，临床场景多样性不足
未考虑公平性约束：IE 未纳入不同亚群的公平性因素
未与更强 baseline 对比：如 nested CV、Bayesian model selection 等成熟方法
领域分类存疑：该工作更偏"临床 ML 评估方法论"而非传统意义上的"医学图像"研究

评分¶

新颖性: ⭐⭐⭐⭐ — IE 指标和 PVF 框架的组合提供了全新视角，将资源约束与鲁棒性评估统一
实验充分度: ⭐⭐⭐⭐ — 合成实验极为充分（90万次重复），真实数据实验规模偏小
写作质量: ⭐⭐⭐⭐ — 数学推导清晰严谨，理论证明完整，但正文与附录比例失衡（大量内容在附录）
实用价值: ⭐⭐⭐⭐ — 对资源受限的临床部署场景有直接应用价值，σ 调参问题制约了即插即用的易用性