DeepGB-TB: A Risk-Balanced Cross-Attention Gradient-Boosted Convolutional Network for Rapid, Interpretable Tuberculosis Screening¶

会议: AAAI 2026
arXiv: 2508.02741
代码: 无
领域: 医学图像
关键词: 结核病筛查, 咳嗽音频, 多模态融合, 交叉注意力, 不平衡损失

一句话总结¶

提出 DeepGB-TB，一个结合轻量级1D-CNN（处理咳嗽音频）和梯度提升决策树（处理人口统计特征）的多模态TB筛查系统，通过双向交叉注意力（CM-BCA）模拟临床推理过程融合异构数据，配合风险平衡损失（TRBL）最小化漏诊，在7国数据集上达到 AUROC 0.903，可在手机上离线实时运行。

领域现状：结核病仍是全球最主要的传染性死因之一。传统诊断方法（痰涂片、NAATs）要么灵敏度低，要么成本高昂需要实验室，在资源匮乏地区难以推广。AI驱动的TB筛查是重要方向，但现有方法多仅用音频或不能有效融合异构数据。

现有痛点： - 很多模型只用音频忽略关键的人口统计和临床风险因子 - 简单拼接或晚期融合无法捕获声学症状与患者背景之间的复杂非线性交互 - Google HeAR 虽然性能好但不开源、只能在线推理 - 深度学习模型的可解释性差，阻碍临床采用

核心矛盾：漏诊一个真正的TB患者（假阴性）的代价远高于误报（假阳性），但标准损失函数不区分两者。

本文目标 设计一个可在手机上运行的、可解释的、面向低资源场景的多模态TB筛查系统。

切入角度：模拟临床医生的推理方式——整合"患者是谁"（人口统计）和"咳嗽什么样"（音频），用交叉注意力让两种模态互相引导对方关注最有诊断价值的信号。

核心 idea：1D-CNN处理音频 + CVPEM增强的LightGBM处理表格特征 + CM-BCA双向交叉注意力融合 + TRBL损失惩罚漏诊。

两条并行数据流：音频分支（1D-CNN提取咳嗽特征）+ 表格分支（LightGBM生成交叉验证概率嵌入 + 全连接层）→ CM-BCA双向交叉注意力融合 → 分类。

交叉验证概率嵌入模块（CVPEM）:
- 功能：将表格数据转化为鲁棒的高维特征
- 核心思路：用5折交叉验证训练LightGBM，对每个患者生成out-of-sample的TB概率，作为额外特征嵌入 \(\tilde{x}_{tab,i} = [x_{tab,i}, p_{gbm,i}]\)
- 设计动机：减少过拟合，增强泛化，同时利用GBDT对表格数据的天然优势
双向交叉注意力（CM-BCA）:
- 功能：让音频和表格特征互相查询对方，迭代精化表示
- 核心思路：\(\mathcal{T}_{t \leftarrow a}\)：表格特征用音频特征做Key/Value的多头注意力 + FFN + LayerNorm；\(\mathcal{T}_{a \leftarrow t}\) 对称地精化音频。迭代直到收敛
- 设计动机：模拟临床医生的推理——看到高风险人群（年龄、暴露史）时更关注音频中的异常模式
结核风险平衡损失（TRBL）:
- 功能：对假阴性施加更强惩罚
- 核心思路：\(\mathcal{L}_{TRBL} = \mathcal{L}_{BCE} \cdot (1-y+\lambda y)\)，\(\lambda > 1\)。正样本（TB阳性）的损失被放大 \(\lambda\) 倍
- 设计动机：在TB筛查中，漏诊的代价远大于误报——漏诊导致传播和死亡，误报只是多做一次确认检查

TRBL 损失 + 标准训练流程。数据集来自7个国家1105名咳嗽超过2周的患者。5折交叉验证评估。

模型	参数量	Accuracy	F1	AUROC	推理时间(s)
LightGBM	1.2M	0.778	0.783	0.834	45.2
1D-CNN	2.1M	0.755	0.783	0.809	21.5
CNN-LightGBM	2.8M	0.788	0.768	0.792	31.2
Qwen-Omni 3B	3B	0.812	0.845	0.900	4531
DeepGB-TB	5.2M	0.817	0.851	0.903	44.6

DeepGB-TB 超过 3B 参数的 Qwen-Omni，推理速度快100倍。