Multimodal 3D Genome Pre-training¶
会议: NeurIPS 2025
arXiv: 2504.09060
代码: github.com/myang998/MIX-HIC
领域: 医学图像
关键词: 3D基因组, Hi-C, 表观基因组, 多模态预训练, 基础模型
一句话总结¶
提出MIX-HIC——首个面向3D基因组的多模态基础模型,通过跨模态交互块和跨模态映射块融合Hi-C接触图和表观基因组信号,在超过127万对样本上预训练,在Hi-C预测、染色质环检测和CAGE-seq表达预测三个下游任务上全面超越SOTA。
研究背景与动机¶
三维基因组组织(如染色质环、拓扑关联域等)对基因调控和细胞功能起关键作用。Hi-C技术可以量化染色质间的3D交互,而表观基因组信号(ATAC-seq、DNase-seq等)则反映染色质的开放状态。理解二者的关系对于揭示基因表达调控机制至关重要。
现有方法面临三大核心挑战:
第一,异构数据融合困难。 Hi-C接触图是2D矩阵形式的空间交互数据,表观基因组是1D序列信号,二者特征天生异构。简单地将两种模态特征对齐到共享空间主要捕获模态不变知识(如基因调控机制),但忽略了模态特有特征(如表观基因组揭示的精确化学修饰和染色质状态),导致信息损失。论文通过定理1严格证明:完美的特征对齐会引入至少 \(\Gamma_q\) 的信息差距,使预测误差低于直接使用原始数据。
第二,泛化能力不足。 现有方法通常针对单一任务优化,难以适应生成(Hi-C预测)和回归(表达预测)等多样化下游任务。
第三,数据稀缺问题。 Hi-C实验成本高昂,实际中常面临模态缺失的情况。需要模型能从已有模态推断缺失模态的语义。
本文的切入角度是:构建首个多模态3D基因组基础模型,通过(1)分离学习模态不变和模态特有表示解决信息损失问题,(2)跨模态映射块实现缺失模态补全,(3)超百万规模配对数据预训练获得强泛化能力。
方法详解¶
整体框架¶
MIX-HIC采用双编码器架构。预训练阶段包含特征提取块、跨模态交互块和跨模态映射块三个核心组件。微调阶段通过模态融合块和任务特定解码器适配不同下游任务。支持三种输入模式:双模态输入(MIX-HIC-Bimodal)、非预训练双模态(MIX-HIC-NonPre)和单模态推断(MIX-HIC-Infer)。
关键设计¶
-
特征提取块(双编码器):
- Hi-C编码器:基于ViT架构,将 \(50 \times 50\) 的Hi-C接触图切分为patch(patch size=2),经三层Transformer编码器逐渐下采样,生成Hi-C嵌入 \(X_M^B \in \mathbb{R}^{\alpha_3 \times C_3}\)
- 表观基因组编码器:处理5000长度的ATAC-seq和DNase-seq信号,先用卷积+池化提取初始嵌入,再经三层Transformer编码,得到表观嵌入 \(X_E^B \in \mathbb{R}^{\beta_3 \times C_3}\)
- 设计动机:Transformer架构能同时建模Hi-C的空间交互和表观基因组的序列依赖,两种模态使用独立编码器保留各自特征空间
-
跨模态交互块:
- 功能:分离学习模态不变特征和模态特有特征
- 核心思路:用4个独立的全连接网络分别从 \(X_M^B\) 和 \(X_E^B\) 提取模态不变表示 \(X_M^I, X_E^I\) 和模态特有表示 \(X_M^S, X_E^S\)。通过对比学习损失 \(\mathcal{L}_{\text{con}}\) 拉近模态不变表示:\(\mathcal{L}_{\text{con}} = \frac{1}{2}(\mathcal{L}_{\text{pair}}(\hat{X_E^I}, \hat{X_M^I}) + \mathcal{L}_{\text{pair}}(\hat{X_M^I}, \hat{X_E^I}))\)。通过正交损失 \(\mathcal{L}_{\text{orth}} = \frac{1}{2}(\langle \hat{X_M^S}, \hat{X_M^I} \rangle + \langle \hat{X_E^S}, \hat{X_E^I} \rangle)\) 确保特有信息与不变信息正交互补。
- 设计动机:定理1证明了完美对齐的信息损失,因此必须同时保留共享知识和模态独有信息
-
跨模态映射块:
- 功能:学习模态间的隐式语义关系,支持缺失模态推断
- 核心思路:将各模态的不变+特有表示拼接为 \(X_M^{\text{Concat}}\) 和 \(X_E^{\text{Concat}}\),通过1D自适应池化对齐长度后,用全连接层学习映射 \(X_{\text{M2E}}\) 和 \(X_{\text{E2M}}\)。映射损失:\(\mathcal{L}_{\text{mapping}} = \frac{1}{2}(\|X_{\text{M2E}} - X_E^{\text{Concat}}\|_2^2 + \|X_{\text{E2M}} - X_M^{\text{Concat}}\|_2^2)\)
- 设计动机:Hi-C实验成本高,经常面临模态缺失。该模块使模型在仅有表观基因组数据时也能推断Hi-C特征,解决数据稀缺问题
损失函数 / 训练策略¶
预训练总损失:\(\mathcal{L}_{\text{pretrain}} = \mathcal{L}_{\text{con}} + \mathcal{L}_{\text{orth}} + \mathcal{L}_{\text{mapping}}\)
微调阶段使用任务特定损失:染色质环检测用BCE损失,Hi-C预测和CAGE-seq表达预测用MSE损失。数据经RPGC(CAGE-seq)和KR(Hi-C)归一化后取log变换。
预训练数据集包含4个细胞系(HepG2, HCT116, IMR90, WTC11),清洗后保留1,275,948对样本——这是迄今最大的3D基因组配对数据集。
实验关键数据¶
主实验¶
Hi-C接触图预测 (\(R^2\))
| 方法 | GM12878 | K562 | 提升 |
|---|---|---|---|
| Epiphany | 0.7970 | 0.6547 | - |
| EPCOT-LSTM | 0.7993 | 0.7840 | - |
| C.Origami | 0.7958 | 0.7055 | - |
| MIX-HIC-Infer | 0.8724 | 0.8001 | +9.3% / +2.1% |
染色质环检测
| 方法 | GM12878 F1 | K562 F1 | GM12878 AUROC | K562 AUROC |
|---|---|---|---|---|
| Peakachu | 0.8015 | 0.7900 | 0.8766 | 0.8834 |
| DLoopCaller | 0.8250 | 0.7932 | 0.9046 | 0.8924 |
| MIX-HIC-Bimodal | 0.8420 | 0.8267 | 0.9209 | 0.9194 |
CAGE-seq表达预测 (\(R^2\))
| 方法 | GM12878 | K562 |
|---|---|---|
| EPCOT-Transformer | 0.8578 | 0.8230 |
| EPI-Graph | 0.7965 | 0.8211 |
| MIX-HIC-Bimodal | 0.8833 | 0.9077 |
消融实验¶
损失函数组件消融(AUROC,染色质环检测)
| \(\mathcal{L}_{\text{con}}\) | \(\mathcal{L}_{\text{orth}}\) | \(\mathcal{L}_{\text{mapping}}\) | GM12878 | K562 |
|---|---|---|---|---|
| ✓ | - | - | 0.9136 | 0.9099 |
| ✓ | ✓ | - | 0.9183 | 0.9156 |
| ✓ | ✓ | ✓ | 0.9209 | 0.9194 |
模态组合消融(Hi-C预测,\(R^2\))
| 配置 | 预训练 | GM12878 | K562 | 说明 |
|---|---|---|---|---|
| 仅Epi | 否 | 0.8481 | 0.7709 | 单模态基线 |
| Epi+推断Hi-C | 是 | 0.8724 | 0.8001 | 跨模态映射有效 |
| Epi+Hi-C | 否 | 0.8614 | 0.8755 | 非预训练双模态 |
| Epi+Hi-C | 是 | 0.8833 | 0.9077 | 预训练完整版本最优 |
关键发现¶
- Hi-C预测任务上相比次优方法提升9.3%,改进最为显著,证明预训练在捕获跨模态语义关系方面的价值
- 少样本实验显示:仅用10%训练数据,MIX-HIC-Bimodal即可达到约0.9 AUROC,与完整数据训练的其他SOTA方法相当
- 跨细胞系评估中MIX-HIC保持最优,表明其在新细胞类型上有良好泛化
- 非预训练的双模态版本在K562环检测上反而不如仅用Hi-C单模态,证实了定理1关于简单对齐会丢信息的论断
亮点与洞察¶
- 这是3D基因组领域的首个多模态基础模型,开创了将基础模型范式引入该领域的先河。超过127万对的预训练数据规模远超同领域现有工作。
- 定理1从理论上证明了完美模态对齐不如分离学习模态不变/特有表示,这一洞察不局限于生物信息学领域,对所有多模态融合任务都有启示意义。
局限与展望¶
- Hi-C分辨率固定为5kb,更高分辨率(如1kb)的建模需要更大的数据和模型
- 预训练仅覆盖4个细胞系,扩展到更多细胞类型和物种可进一步增强泛化性
- 跨模态映射尽管有效但提升幅度相对有限(约0.5% AUROC),更强的模态补全策略值得探索
相关工作与启发¶
- vs Epiphany: Epiphany仅用表观基因组预测Hi-C,MIX-HIC-Infer通过预训练学到的跨模态语义在相同设定下提升9.3%
- vs EPCOT: EPCOT在不同数据集上性能波动大,MIX-HIC通过大规模预训练获得稳健表现
- vs RefHiC: RefHiC的预训练局限于小规模数据和单一任务,MIX-HIC的百万级预训练使其具备多任务泛化能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 3D基因组领域首个多模态基础模型,定理1提供了有价值的理论洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 3个下游任务、2个细胞系、少样本/跨细胞系/消融实验非常完整
- 写作质量: ⭐⭐⭐⭐ 结构严谨,理论与实验结合紧密
- 价值: ⭐⭐⭐⭐⭐ 为3D基因组研究提供了新范式,数据集和代码完全开源
相关论文¶
- [CVPR 2025] Revisiting MAE Pre-Training for 3D Medical Image Segmentation
- [NeurIPS 2025] QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training
- [ECCV 2024] TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data
- [CVPR 2025] Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation
- [CVPR 2025] Multi-modal Vision Pre-training for Medical Image Analysis (BrainMVP)