Clinician-in-the-Loop Smart Home System to Detect Urinary Tract Infection Flare-Ups via Uncertainty-Aware Decision Support¶

会议: AAAI 2026
arXiv: 2511.18334
代码: 无
领域: 其他（智能医疗/不确定性量化）
关键词: 智能家居, 尿路感染检测, 不确定性量化, 共形预测, 临床决策支持

一句话总结¶

提出一种临床医师参与闭环的智能家居系统，利用环境传感器数据提取行为标记，结合新颖的共形校准区间（CCI）方法量化预测不确定性，实现对老年人尿路感染（UTI）发作的可靠检测与"不确定时弃权"的决策支持。

研究背景与动机¶

问题背景¶

老年慢性病患者中，尿路感染（UTI）是最常见的细菌感染之一，且症状在老年人中往往不典型（可表现为谵妄、困惑、跌倒等），导致感染常在严重化后才被发现。传统的居家管理依赖不一致的自我报告和短暂的临床评估，难以有效监测。

智能家居的潜力与局限¶

智能家居通过环境传感器（被动红外运动探测器、磁门传感器等）可持续监测居民日常行为模式，已用于认知退化检测、睡眠质量评估等。但现有系统存在三个关键限制：

行为变异性大：即使健康个体的行为模式也高度多变

多种慢性病组合的影响方式各不相同

仅分析报告而不参与行动决策

核心动机¶

现有ML方法仅输出二元分类（有UTI/无UTI），缺乏对预测不确定性的量化，临床医师无法判断预测的可信度。本文认为： - 当系统输出清晰的不确定性信息时，临床医师能更自信、有效地处理检测到的状况 - 不确定性估计需有统计保证才能赢得临床信任 - 系统应在不确定时选择弃权（"我不知道"），标记模糊案例供护士进一步评估

方法详解¶

整体框架¶

系统分为三个阶段： 1. 传感器数据采集：从智能家居环境传感器持续收集日常活动数据 2. 行为标记提取与ML分类：提取临床相关的行为特征，训练分类模型 3. 不确定性量化与决策支持：用CCI方法对预测概率构建校准区间，输出三类决策

关键设计¶

1. 行为特征提取：从原始传感器事件中构建临床相关标记¶

从连续传感器数据中提取17个特征，包括： - 夜间如厕次数、夜间非如厕活动量 - 如厕百分比（夜间如厕占总如厕比例） - 近3天健康事件指标 - 每日运动熵（Shannon熵衡量活动分散度）

使用SHAP值进行特征重要性评估，选取Top-5特征作为主要输入。设计动机：UTI在老年人中常表现为夜间活动增加、如厕频率变化等行为异常，这些特征直接关联临床指标。

2. 朴素不确定性区间（Naive Intervals）：基于随机森林集成的简单基线¶

利用随机森林中每棵决策树的概率估计$p_j(x)$，计算均值$\hat{p}(x)$和标准差$\hat{\sigma}(x)$，构建区间：

\[C(x) = [\max\{0, \hat{p}(x) - \hat{\sigma}(x)\}, \min\{1, \hat{p}(x) + \hat{\sigma}(x)\}]\]

这种方法直观但缺乏统计覆盖保证，在树预测高度变异或偏斜时区间过宽且不可靠。

3. 共形校准区间（CCI）方法：本文核心贡献¶

CCI的核心思路是在二元分类的概率输出上构建具有统计保证的自适应预测区间。

步骤一：标签映射。将二元标签$y \in \{0,1\}$映射到连续空间： $$y' = 0.25 + 0.5 \cdot y$$ 为两个类别创建不同的区间中心（0类→0.25, 1类→0.75），便于在概率空间中构建区间。

步骤二：自适应不确定性缩放。定义缩放函数： $$\sigma(p) = 1 + (1 - |p - 0.5|)$$ 当预测概率接近决策阈值0.5时（不确定性最大），缩放因子增大；接近0或1时（确定性高），缩放因子减小。体现"边界预测应更谨慎"的临床直觉。

步骤三：非一致性评分与校准。给定校准集$\{(x_i, y_i)\}_{i=1}^n$，计算评分： $$S(p_i, y'_i) = \frac{(y'_i - p_i)^2}{\sigma(p_i)}$$ 然后计算$(1-\alpha)$分位数$\hat{q}$作为阈值。

步骤四：预测区间构建。对新样本构建区间： $$C(x_{\text{test}}) = \{p \in [0,1] \mid S(p, y'_{\text{test}}) \leq \hat{q}\}$$

理论保证（Theorem 1）：在校准数据与测试数据可交换的假设下，预测区间包含变换后标签$y'_{\text{test}}$的概率至少为$1-\alpha$。

4. 基于区间的三类决策规则¶

将不确定性区间转化为可操作的决策： - "UTI"：区间下界 ≥ 0.5，或右尾概率 ≥ 1-α - "无UTI"：区间上界 < 0.5，或左尾概率 ≥ 1-α - "我不知道"：区间跨越决策边界且两侧均无强确定性 → 标记为模糊案例供护士进一步评估

训练策略¶

数据划分：10%测试，剩余40%校准，其余训练
误差率$\alpha = 0.1$
所有结果在20次独立运行上取平均
基线ML模型：逻辑回归（因一致优于神经网络而选为主模型）和神经网络，使用GridSearchCV + 3折交叉验证调参

实验关键数据¶

数据集¶

来自CASAS智能家居的真实数据，8个家庭的117个标注日样本（56天UTI阳性 + 61天UTI阴性），参与者平均年龄83.8岁，均有多种慢性病。

主实验¶

方法	Accuracy	Precision	Recall	F1	弃权比例	区间宽度
Random Guess	0.49±0.14	0.48±0.29	0.24±0.14	0.32±0.19	-	-
Base ML Model	0.69±0.15	0.68±0.15	0.77±0.15	0.72±0.12	-	-
Naive-interval	0.71±0.26	0.60±0.41	0.61±0.40	0.57±0.36	0.73±0.12	0.60±0.06
CCI (本文)	0.72±0.16	0.74±0.17	0.78±0.17	0.75±0.14	0.22±0.14	0.20±0.05

消融实验 / 关键对比¶

对比维度	CCI	Naive
F1得分	0.75	0.57
弃权比例	0.22 (低)	0.73 (极高)
区间宽度	0.20 (紧凑)	0.60 (过宽)
临床实用性	高（多数预测可操作）	低（73%时间弃权）

关键发现¶

CCI在所有分类指标上均超越所有基线（包括基础ML模型），同时弃权频率远低于Naive方法（0.22 vs 0.73）
42名护士的调查反馈验证了CCI输出的临床可用性：护士认为更紧凑的区间增加了使用意愿，CCI图表"清晰、可信、有用"
Naive方法在临床上不可行：73%的时间弃权意味着绝大多数情况下无法给出可操作建议
Recall指标（0.78）在UTI检测中至关重要——漏检可能导致严重并发症

亮点与洞察¶

"我不知道"的设计非常巧妙：不同于传统二元输出，三类决策（UTI/无UTI/弃权）更符合临床实际——模糊案例交由护士进一步评估
自适应缩放函数$\sigma(p)$的设计动机清晰：在概率空间中编码了"边界预测需更谨慎"的临床直觉
理论保证（共形预测的有限样本覆盖）与临床需求的对齐：护士明确表示"如果有成功概率的证据会更放心使用"
从传感器到决策的完整闭环设计：不仅检测，还通过SHAP解释为何模型给出此预测

局限与展望¶

数据规模极小（117个样本，8个家庭），泛化性有待验证
假设数据可交换性——时序数据可能违反此假设
未考虑多种慢性病的交互效应，当前仅针对UTI一种状况
特征工程依赖领域知识，未探索端到端的深度学习方法
部署路径描述了理想场景（EHR集成、实时管道等），但未给出原型实现

评分¶

新颖性: ⭐⭐⭐⭐ (CCI方法的设计有创新，但核心是共形预测的标准应用)
实验充分度: ⭐⭐⭐ (数据规模太小，仅117样本；但护士调查增加了实用性验证)
写作质量: ⭐⭐⭐⭐ (结构清晰，动机阐述充分)
价值: ⭐⭐⭐⭐ (在智能健康监测中引入不确定性量化的临床价值明确)