X-WIN: Building Chest Radiograph World Model via Predictive Sensing¶

会议: CVPR 2026
arXiv: 2511.14918
代码: 无
领域: 医学图像
关键词: 世界模型, 胸片表征学习, CT知识蒸馏, 对比学习, 域自适应

一句话总结¶

提出 X-WIN 胸片世界模型，首次将 3D CT 空间知识融入 CXR 表征学习：通过学习预测 CT 在不同旋转角度下的 2D 投影来内化 3D 解剖结构，配合亲和力引导的对比对齐和结构保持域自适应，在 6 个 CXR 基准上通过线性探测取得 SOTA。

研究背景与动机¶

CXR 的本质局限：2D 投影图像存在结构叠加，无法直接捕获 3D 解剖信息，限制了疾病诊断能力
CT vs CXR 的权衡：CT 可获取 3D 结构但成本高、辐射大、可及性低，CXR 安全便宜但信息有限
放射科医生的启示：放射科医生看到正面/侧面 CXR 时可以认知重建 3D 胸腔模型，辅助被遮挡结构的诊断
现有世界模型局限：CheXWorld 仅学习 2D 局部结构和全局几何，不具备 3D 空间认知
核心思路：如果模型能准确预测 CT 在任意旋转角度下的 X 射线投影，说明模型已内化了有意义的 3D 解剖结构

方法详解¶

整体架构（JEPA 变体）¶

上下文编码器 \(f_\theta\)：接收常规正面/侧面 CXR
EMA 编码器 \(f_{\theta'}\)：接收多个目标投影，指数移动平均更新
视图预测器 \(g_v\)：动作条件预测新投影的潜在表示
遮蔽预测器 \(g_m\)：重建遮蔽 patch token

动作设计¶

动作 \(a_i = k \cdot \Delta\phi\) 定义 X 射线源相对于输入位置的偏航旋转角，约束在 \([-90°, 90°]\)，随机采样 \(N=8\) 个投影。最优步长 \(\Delta\phi = 3°\)（对应 60 个潜在投影）。

亲和力引导的对比对齐¶

预测表示 \(z_i^{\text{patch}} = g_v(\text{Linear}(a_i) \oplus (f_\theta(u_{\text{context}}) + \text{PE}))\)

标准 InfoNCE 用 one-hot 标签做硬对齐，但同一 CT 的不同投影之间有丰富的解剖对应关系。引入亲和力矩阵 \(A\) 做软正则化：

\[A_{ij} = \frac{\exp(\text{sim}(t_i, t_j)/\tilde{\tau})}{\sum_l \exp(\text{sim}(t_i, t_l)/\tilde{\tau})}\]

\[\mathcal{L}_{\text{align}} = \mathcal{L}_{\text{InfoNCE}} + \lambda_{\text{affinity}} \mathcal{L}_{\text{affinity}}\]

结构保持域自适应¶

模拟 CXR（从 CT 投影生成）与真实 CXR 存在域差异。采用：

遮蔽图像建模（MIM）：在真实和模拟 CXR 上都做 MIM，编码局部/上下文特征
域分类器 \(f_c\)：学习区分真实/模拟域表示
域自适应损失：

\[\mathcal{L}_{\text{domain}} = \frac{1}{N} \sum_{i=1}^{N} \|z_i^{\text{patch}} - t_i^{\text{patch}}\|_2^2 - \frac{1}{N} \sum_{i=1}^{N} \log f_c(z_i^{\text{patch}})\]

使投影预测既保持结构信息又在统计上接近真实域。

总损失¶

\[\mathcal{L}_{\text{overall}} = \mathcal{L}_{\text{align}} + \lambda_{\text{MIM}} \mathcal{L}_{\text{MIM}} + \lambda_{\text{domain}} \mathcal{L}_{\text{domain}} + \lambda_{\text{cls}} \mathcal{L}_{\text{cls}}\]

实验关键数据¶

线性探测对比（AUROC）¶

模型	预训练数据	VinDr	CheXpert	NIH-CXR	RSNA	JSRT	平均
DINOv2	LVD-142M	0.795	0.776	0.711	0.798	0.559	0.728
CheXFound	987K CXR	0.869	0.876	0.829	0.872	0.846	0.858
Ark+	704K CXR	0.906	0.876	0.831	0.893	0.807	0.863
CheXWorld	448K CXR	0.903	0.871	0.833	0.824	0.791	0.844
X-WIN (ViT-L)	372K CXR+32K CT	0.925	0.908	0.843	0.929	0.857	0.892

平均 AUROC 0.892，超越所有 CXR 基础模型和视觉语言模型。

Few-shot 微调（COVIDx, AUROC）¶

模型	4-shot	8-shot	16-shot	All
CheXFound	0.823	0.883	0.897	0.977
CheXWorld	0.843	0.893	0.902	0.981
X-WIN	0.868	0.924	0.939	0.993

3D CT 重建能力¶

通过 VQ-GAN 解码器 + FDK 算法重建 3D CT 体积： - 2D 投影 PSNR 30.23 dB, SSIM 0.888 - 3D 重建 PSNR 27.87 dB, SSIM 0.789

消融实验¶

\(\mathcal{L}_{\text{InfoNCE}}\) 单独即建立强基线
\(\mathcal{L}_{\text{MIM}}\) + \(\mathcal{L}_{\text{InfoNCE}}\) 组合大幅提升
域自适应将余弦相似度从 0.845 提升到 0.967
直接旋转 > 步进式旋转；偏航旋转 > 三维欧拉角旋转

亮点与洞察¶

医学影像世界模型的突破：首次将 3D CT 空间知识融入 2D CXR 世界模型，"从 2D 到 3D 的跃迁"
预测性感知设计巧妙：通过预测旋转后的投影来内化 3D 结构，而非直接回归 3D 特征
亲和力引导：利用同一 CT 不同投影间的自然相关性做软对比，比 hard InfoNCE 更合理
3D 重建能力验证：能从 CXR 渲染投影并重建 CT 体积，证实模型确实学到了 3D 知识

局限性¶

依赖 DiffDRR 生成模拟投影，模拟-真实域差距仍是瓶颈
仅使用偏航旋转，未充分利用俯仰/翻滚维度
3D 重建结果仍有模糊，局部细节损失明显
训练需要 8×A100 40GB GPU，100 epochs，计算成本较高

评分¶

维度	评分
新颖性	⭐⭐⭐⭐⭐
实验	⭐⭐⭐⭐⭐
写作	⭐⭐⭐⭐
价值	⭐⭐⭐⭐⭐