NOSE: Neural Olfactory-Semantic Embedding with Tri-Modal Orthogonal Contrastive Learning¶

会议: ACL 2026
arXiv: 2604.10452
代码: GitHub
领域: 多模态表示学习 / 嗅觉计算
关键词: 嗅觉表示学习, 三模态对齐, 正交解耦, 对比学习, 弱正样本

一句话总结¶

提出 NOSE 三模态嗅觉表示学习框架，以分子为枢纽通过正交注入机制对齐分子结构、受体序列和自然语言描述三个模态，配合 LLM 驱动的弱正样本策略缓解描述稀疏问题，在 11 个下游任务上达到 SOTA 并展现优秀的零样本泛化能力。

研究背景与动机¶

领域现状：嗅觉是最难数字化的感官——视觉有像素、听觉有频谱，但嗅觉缺乏稳定的物理量到感知的映射。嗅觉感知链条为：分子结构 → 受体结合 → 神经信号 → 语言描述。

现有痛点：(1) 现有方法只建模嗅觉通路的片段（仅分子结构、或仅分子-描述/受体对应），从未在统一框架中捕获完整的分子→受体→语义链；(2) 主流方法将气味预测建模为分类问题（"花香"or"果香"），破坏了气味空间的连续性——"薄荷"和"清凉"高度相关但在分类框架下是独立标签；(3) 分类目标迫使模型拟合标签边界，丢弃了对分子结构重要但对分类无用的信息。

核心矛盾：完整的三模态数据（分子-受体-描述三元组）极其稀缺，但双模态数据（分子-受体和分子-描述）可分别获取。如何在没有三元组标注的情况下实现三模态对齐？

本文目标：构建覆盖完整嗅觉感知通路的连续表示空间，使分子表示同时编码受体信息和语义信息且互不干扰。

切入角度：分子是两个双模态数据集的唯一交集，可作为枢纽桥接受体和语义信息。关键问题是防止两种信号在注入时相互覆盖——解决方案是正交注入。

核心 idea：将受体特征和语义特征作为正交增量叠加到分子表示上，通过 Gram-Schmidt 正交化保证模态独立，同时用 LLM 挖掘气味描述符间的语义近邻关系扩展稀疏标签。

方法详解¶

整体框架¶

NOSE 以分子为中心枢纽进行三模态预训练：Uni-Mol 提取分子 3D 结构特征 \(z_{mol}\)（冻结），ESM-2 提取受体序列特征 \(z_{rec}\)（带可训练投影层），Qwen3 Embedding 通过 LoRA 微调提取气味描述特征 \(z_{desc}\)。分子嵌入通过双适配器分解为受体对齐分量 \(a_r\) 和描述对齐分量 \(a_d\)，经 Gram-Schmidt 正交化后用多组 InfoNCE 损失训练。推理时只需分子编码器和适配器。

关键设计¶

正交注入机制 (Orthogonal Injection):
- 功能：将受体和语义特征独立注入分子表示，防止模态间信息覆盖
- 核心思路：硬正交化（几何解耦）通过 Gram-Schmidt 将适配器输出 \(a_{adapter}\) 投影到 \(z_{mol}\) 的正交补空间：\(z_{adapter} = a_{adapter} - \frac{a_{adapter} \cdot z_{mol}}{\|z_{mol}\|^2 + \epsilon} z_{mol}\)。软正交化（优化正则）通过损失函数 \(\mathcal{L}_{orth} = \sum_{(i,j)} \|\frac{z_i}{\|z_i\|} \cdot \frac{z_j}{\|z_j\|}\|^2\) 驱动三个子空间保持互相去相关
- 设计动机：简单的多模态融合会导致特征冗余和覆盖；正交约束保证了每个模态贡献独特且不可替代的信息
LLM 驱动的弱正样本策略 (Weak Positive Augmentation):
- 功能：缓解气味描述稀疏导致的假负样本问题
- 核心思路：利用 DeepSeek 挖掘 1,086 个气味描述符间的语义近邻关系，将孤立标签扩展为连续的气味语义邻域。在对比学习中，正样本权重 1.0、弱正样本权重 0.5、负样本权重 0.0，实现软化的 InfoNCE 损失
- 设计动机：传统对比学习中"lemon"和"sour"会被视为负样本互相排斥，但它们在嗅觉空间中应该相邻。弱正样本策略将离散标签空间转化为连续语义流形
差异化适配器设计:
- 功能：适应两个双模态数据集的巨大规模差异（受体数据 3,877 对 vs 描述数据 88,512 对）
- 核心思路：描述适配器用 12 层逆瓶颈 ResMLP 结构（高容量拟合丰富文本数据），受体适配器用带高 dropout 的瓶颈结构（防止稀疏数据上过拟合）
- 设计动机：数据量差异超过 20 倍，统一架构会导致一端过拟合或另一端欠拟合

损失函数 / 训练策略¶

总损失包含：受体-分子 InfoNCE、描述-分子软加权 InfoNCE、模态内 InfoNCE 和正交约束损失。分子编码器（Uni-Mol）冻结，ESM-2 带可训练投影，Qwen3 Embedding 用 LoRA 微调。最终表示 \(Z = w_1 \cdot z_{mol} + w_2 \cdot a_r + w_3 \cdot a_d\)。

实验关键数据¶

主实验（基础感知属性预测，Pearson 相关系数）¶

方法	阈值(Abraham)	愉悦度(Keller)	愉悦度(Sagar)	强度(Keller)	强度(Sagar)	强度(Ravia)
Uni-Mol	0.78	0.68	0.14	0.27	0.37	0.31
ChemBERTa	0.81	0.65	0.15	0.39	0.45	0.47
NOSE	0.84	0.71	0.40	0.42	0.47	0.49

消融实验¶

配置	关键指标	说明
NOSE (完整)	SOTA	三模态+正交+弱正样本
w/o 受体模态	下降显著	仅双模态，缺少生物学接地
w/o 正交约束	下降	模态特征冗余
w/o 弱正样本	下降	假负样本导致表示退化

关键发现¶

NOSE 在 11 个下游任务中全面达到或超越 SOTA，尤其在稀疏数据集（Sagar）上提升最大（Pearson 从 0.14 跃升至 0.40）
零样本泛化表现优异，验证了表示空间与人类嗅觉直觉的强一致性
混合物感知任务上也表现良好，说明学到的表示能捕获分子间非线性交互

亮点与洞察¶

以分子为枢纽实现无三元组标注的三模态对齐是核心创新——利用双模态数据的交集间接桥接第三模态
正交注入的设计哲学值得迁移：在任何多模态融合中，当不同信号源提供互补而非冗余信息时，正交约束都能防止信息覆盖
弱正样本策略将离散标签空间"软化"为连续流形，是对比学习中处理标签稀疏的通用技巧

局限与展望¶

受体数据仅 3,877 对，规模仍然有限，随着更多受体-配体数据积累效果可能进一步提升
当前仅考虑单一分子的气味预测，真实场景中混合气味的组合效应更为复杂
嗅觉描述的主观性问题本质上无法完全解决，不同文化背景下的气味描述差异较大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个覆盖完整嗅觉通路的三模态框架，正交注入机制新颖
实验充分度: ⭐⭐⭐⭐⭐ 11个下游任务，6个数据集，丰富的消融和零样本实验
写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰，图表精美，背景介绍友好
价值: ⭐⭐⭐⭐ 嗅觉计算是新兴交叉领域，框架设计可迁移到其他多模态场景