Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling¶
会议: AAAI 2026 (Oral)
arXiv: 2511.21120v1
代码: https://github.com/limengran98/CHMR
领域: 药物发现 / 分子性质预测 / 多模态学习
关键词: 分子表示学习, 细胞感知, 层次化向量量化, 多模态缺失, 对比学习
一句话总结¶
提出CHMR框架,将分子结构(1D/2D/3D)与细胞形态/基因表达等生物模态联合建模,通过结构感知的模态增强解决>90%的外部生物模态缺失问题,用树状向量量化(Tree-VQ)捕获分子-细胞-基因的层次化依赖关系,在9个benchmark的728个任务上超越SOTA,分类平均AUC提升3.6%,回归MAE降低17.2%。
背景与动机¶
分子性质预测(活性、毒性、ADME)是药物发现的核心任务。现有方法主要基于分子结构(指纹、图、3D构象)做预测,忽略了分子与细胞相互作用后引发的生物学响应(细胞形态变化、基因表达改变)——这些响应蕴含着分子作用机制的关键信息。近期cell-aware方法(InfoAlign, InfoCORE)开始引入细胞表型和基因表达数据,但面临两个核心瓶颈:(1)模态缺失严重——外部生物模态(Cell Painting、L1000、CRISPR)的缺失率高达90-99%, 数据极不完整;(2)现有方法在扁平化的潜空间做对齐,无法捕获分子→细胞→基因的层次化因果依赖。
核心问题¶
如何在生物模态严重缺失的条件下,构建鲁棒的分子表示学习框架?需要同时解决:(1)90%+缺失率下的模态补全;(2)跨尺度(分子-细胞-基因)的层次化语义建模;(3)不同模态间的语义一致性对齐。
方法详解¶
整体框架¶
预训练阶段:129K分子的多模态数据(1D指纹+2D图+3D构象+Cell Painting+CRISPR/ORF+L1000) → 模态增强(MA, 图传播补全缺失模态) → 语义一致性对齐(SCA, InfoNCE+VICReg) → 树状向量量化(Tree-VQ, 捕获层次化语义) → 上下文传播重建(CPR, 随机游走+重建loss) → 冻结backbone,轻量MLP做下游任务。
关键设计¶
- 模态增强(MA): 基于Dirichlet能量最小化的迭代图传播。构建分子相似性图(top-K近邻),缺失模态的特征通过邻居观测值迭代加权平均得到,收敛到图Laplacian的解。比简单的零填充/随机填充/均值填充效果显著更好(消融降5.3%/4.5%/2.9%)。
- 语义一致性对齐(SCA): 双层对齐——(a)样本级:InfoNCE loss对齐分子锚向量(1D+2D+3D聚合)和细胞模态表示;(b)分布级:VICReg loss对齐增强前后的细胞特征分布(消除传播引入的分布偏移)。两者互补,缺一性能降1.7-2.9%。
- 树状向量量化(Tree-VQ): 建立深度H=6的二叉树,所有模态共享这棵树。每个模态特征按cosine距离沿树路径做层次化量化——浅层对应粗粒度语义(分子指纹),深层对应细粒度语义(细胞表型/基因表达)。核心定理证明:共享相同量化路径的两个输入,其cosine相似度下界为2α²-1,保证同一语义分区内的特征一致性。相比扁平VQ提升2.0%。
- 上下文传播重建(CPR): 在生物知识图(分子-基因-细胞关系图)上做随机游走,用沿路径的累积权重指导跨模态重建loss,增强缺失模态的补全质量。
损失函数 / 训练策略¶
- L_total = L_CPR + λ1·L_SCA + λ2·L_TreeVQ
- 最优:λ1=10, λ2=1, η=1, H=6
- 预训练:RTX 3090, 50 epochs, Adam, lr=1e-4, batch=3072
- 下游:冻结backbone,训练2层MLP;4个数据集(BACE/ClinTox/SIDER/HIV)额外ensemble随机森林(γ加权)
实验关键数据¶
| 数据集(类型) | 指标 | CHMR | 前SOTA(InfoAlign) | 提升 |
|---|---|---|---|---|
| ChEMBL(分类) | AUC | 84.7 | 81.3 | +3.4 |
| ToxCast(分类) | AUC | 69.3 | 66.4 | +2.9 |
| Broad(分类) | AUC | 71.4 | 70.0 | +1.4 |
| Biogen(回归) | MAE | 40.9 | 49.4 | -17.2% |
| 5个OGB数据集均值(分类) | AUC | 82.2 | 79.1 | +3.1 |
消融实验要点¶
- MA最关键: 零填充→AUC降-5.3%,说明模态补全是基础
- SCA不可or缺: 去掉→-3.6%,样本级对齐(-2.9%)比分布级(-1.7%)重要
- Tree-VQ vs 扁平VQ: 层次化结构额外提升+2.0%
- CPR中随机游走贡献: 去掉→-2.0%,说明生物知识图的上下文信息有用
- 多模态协同: 仅用分子→-4.9%;加任何一种生物模态都有提升(~2%)
亮点¶
- 90%+缺失率下仍有效 — 实际场景中生物模态极度缺失,MA+SCA组合让模型依然鲁棒
- Tree-VQ的生物学可解释性 — 树的浅层对应化学指纹(粗粒度),深层对应细胞/基因(细粒度),与生物学因果链(分子→细胞→基因)自然对应
- 理论保证 — 自定义的Tree-VQ有严格的cosine相似度下界证明(Theorem 1)
- 9个benchmark 728个任务的大规模验证 — 覆盖活性、毒性、ADME等多种预测任务
局限性 / 可改进方向¶
- InfoNCE中N²的复杂度限制了数据规模的进一步扩展
- Tree-VQ的树深度H=6是手动设定,自适应深度可能更好
- 仅在冻结backbone+MLP的设置下评估,全模型微调可能有不同结论
- 4个数据集需要ensemble随机森林辅助,说明CHMR自身在某些分布上仍有不足
与相关工作的对比¶
与InfoAlign(ICLR 25)相比,核心差异是Tree-VQ的层次化建模(InfoAlign做扁平对齐)和基于图传播的模态增强(InfoAlign直接在缺失数据上对齐)。与CLOOME/InfoCORE等早期cell-aware方法相比,CHMR同时解决了模态缺失和层次化建模两个问题。与UniMol/MOL-Mamba等结构方法相比,CHMR额外利用了生物模态信息。
启发与关联¶
- Tree-VQ的层次化量化设计 → 可迁移到其他有层次结构的多模态任务(如遥感多尺度理解)
- 图传播做模态补全 → 可用于其他多模态严重缺失的场景(如多组学数据、临床多模态数据)
- 分子-细胞-基因的跨尺度建模 → 药物发现和精准医疗的关键技术方向
评分¶
- 新颖性: ⭐⭐⭐⭐ Tree-VQ在分子多模态中的应用有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 9个数据集728任务+20+baseline+完整消融+超参分析+可视化
- 写作质量: ⭐⭐⭐⭐ 结构清晰,有理论推导
- 价值: ⭐⭐⭐⭐ 药物发现场景的实用框架