NePhi: Neural Deformation Fields for Approximately Diffeomorphic Medical Image Registration¶
会议: ECCV 2024
arXiv: 2309.07322
代码: https://github.com/uncbiag/NePhi (有)
领域: 医学图像 / 3D视觉
关键词: 医学图像配准, 微分同胚变换, 隐式神经表示, 形变场, 多分辨率配准
一句话总结¶
NePhi用隐式神经网络(SIREN)替代传统的体素化形变场来表示配准变换,通过编码器预测latent code + 可选的测试时优化实现快速且近似微分同胚的医学图像配准,在多分辨率设置下与SOTA精度相当但内存降低5倍。
背景与动机¶
医学图像配准是将两张图像对齐到相同坐标系的基础任务。现有的学习方法大多用体素化形变场(voxel-based deformation fields)表示变换,这在高分辨率3D图像上存在显著问题:内存消耗巨大(立方级增长),且难以保证变换的拓扑正确性(微分同胚性)。已有的基于神经网络的配准方法虽然用INR表示形变,但依赖纯优化推理,速度极慢。
核心问题¶
如何设计一种既能像体素方法一样快速推理,又能保证良好的变换规则性(近似微分同胚),同时大幅降低内存消耗的配准方法?
方法详解¶
整体框架¶
NePhi的pipeline分两阶段: 1. 训练阶段:编码器接收图像对,预测一组latent codes,这些codes作为条件输入SIREN网络来生成形变场 2. 推理阶段:可以直接用编码器预测结果(快速),也可以进一步做instance optimization(更精确但稍慢)
输入为一对3D医学图像(moving + fixed),输出为一个连续的形变场函数,通过SIREN网络参数化。
关键设计¶
-
SIREN-based形变表示: 不用离散体素格点存储形变向量,而是用SIREN(Sinusoidal Representation Network)作为连续函数来表示形变场。任意坐标点的形变可以通过网络前向传播得到,分辨率不受固定网格限制。这是内存效率的核心来源——网络参数量远小于高分辨率体素网格。
-
Latent Code条件化: 不同图像对的形变通过不同的latent code来区分。编码器(类CNN架构)从图像对中预测latent code,然后将其注入SIREN的各层作为conditioning信号,使同一个SIREN主干能表示不同的形变。
-
多分辨率配准策略: 采用coarse-to-fine的多分辨率方案。先在低分辨率下估计粗略形变,再在高分辨率下精化。因为SIREN是连续函数表示,分辨率切换不需要改变网络结构,只需在不同密度的采样点上评估即可。
-
近似微分同胚性保证: 将SIREN的输出解释为速度场(velocity field),通过积分(scaling and squaring)得到最终形变场。速度场的连续性和光滑性自然地促进微分同胚性,不需要额外正则化约束。
损失函数 / 训练策略¶
- 图像相似性损失(如NCC/MSE)驱动配准精度
- 支持instance optimization:测试时可以冻结SIREN权重,仅优化latent code来细化配准结果
- 训练时的内存优势来自于:SIREN是在随机采样的坐标子集上评估的,不需要一次性计算整个体积的形变
实验关键数据¶
| 数据集 | 设置 | 关键发现 |
|---|---|---|
| 2D合成数据 | 单分辨率 | 验证基本原理可行,形变规则性优于体素方法 |
| DirLab COPDGene 肺 | 多分辨率 | 配准精度与VoxelMorph等SOTA相当 |
| OASIS 脑 | 多分辨率+IO | 匹配SOTA (如TransMorph, VoxelMorph) 精度,内存减少5倍 |
消融实验要点¶
- SIREN vs 体素表示:单分辨率下精度相当,但内存显著降低
- 有无instance optimization:IO带来明显的精度提升,是缩小与体素方法差距的关键
- 内存对比:3D高分辨率下,NePhi的训练和推理内存消耗约为体素方法的1/5
亮点 / 我学到了什么¶
- 用连续函数替代离散网格是解决3D高分辨率配准内存瓶颈的优雅方案
- latent code + universal decoder的架构思路具有通用性,可以迁移到其他需要个性化连续函数的场景
- 随机坐标子采样训练策略巧妙回避了全分辨率前向传播的内存问题
- 实验展示了accuracy-memory-regularity三角权衡的全面分析,方法论值得学习
局限性 / 可改进方向¶
- 单分辨率下精度与体素方法持平但未超越,需要多分辨率+IO才能匹配SOTA
- Instance optimization增加了推理时间,对于需要实时配准的场景仍有挑战
- SIREN的频率参数选择可能影响能捕获的形变频率范围
- 尚未在超大规模数据集上验证泛化性
- → 相关idea: Hash-Accelerated Neural Deformation Fields
与相关工作的对比¶
- VoxelMorph/TransMorph: 体素化方法精度高但内存大;NePhi内存小但需要IO补精度
- IDIR/NIR (纯优化INR配准): NePhi通过编码器预测latent code大幅加速推理,无需从头优化
- GradICON: 重点在梯度逆一致性保证微分同胚;NePhi通过连续速度场积分方案实现
与我的研究方向的关联¶
- 已有直接相关idea: Hash-Accelerated Neural Deformation Fields for Real-Time Diffeomorphic Registration,思路是用hash encoding替代SIREN加速
- NePhi的latent code条件化方案可以启发多模态对齐任务中的个性化变换建模
评分¶
- 新颖性: ⭐⭐⭐⭐ 将INR引入配准的功能性表示是有新意的,但类似思路在NeRF领域已广泛使用
- 实验充分度: ⭐⭐⭐⭐ 2D+3D多数据集,memory/accuracy/regularity三维对比全面
- 写作质量: ⭐⭐⭐⭐ 清晰的框架图和系统性的对比分析
- 对我的价值: ⭐⭐⭐⭐ 已经基于此论文生成了具体的idea,具有直接参考价值