跳转至

Boosting LLM's Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning

会议: ACL 2025
arXiv: 2506.23056
代码: https://github.com/HICAI-ZJU/K-MSE
领域: LLM / 科学推理
关键词: 分子结构解析, MCTS, 知识库增强, 光谱-分子评分器, test-time scaling

一句话总结

提出 K-MSE,通过构建分子子结构知识库补充 LLM 化学知识 + 设计分子-光谱评分器作为奖励模型 + MCTS 树搜索推理框架,在分子结构解析任务上将 GPT-4o-mini 和 GPT-4o 的性能提升超过 20%。

研究背景与动机

  1. 领域现状:分子结构解析——从 NMR/IR 光谱数据推断分子结构——是化学实验分析的核心任务,即使专家也需要 10-15 分钟推理一个分子。LLM 在化学任务上有潜力但面临重大挑战。
  2. 现有痛点:(a) LLM 缺乏足够的化学分子结构空间覆盖——常将不熟悉的子结构(如噻吩)误识别为常见结构(如苯环);(b) LLM 无法准确评估自己的推理结果——作为奖励模型时效果差,无法有效指导树搜索。
  3. 核心矛盾:树搜索推理需要两个条件——足够的领域知识和准确的奖励信号——LLM 在分子结构解析任务上两者都缺乏。
  4. 本文要解决什么? 通过外部知识库补充知识 + 专用评分器提供准确奖励,让 MCTS 推理在化学任务上有效运转。
  5. 切入角度:知识库提供子结构参考,评分器兼作奖励模型和检索桥梁,MCTS+Self-Refine 实现迭代优化。
  6. 核心 idea 一句话:知识库补知识、评分器补反馈、MCTS 框架让 LLM 能像化学家一样迭代-反思-改进分子结构推理。

方法详解

整体框架

输入:IR 光谱(图像)+ C-NMR + H-NMR + 分子式 → 知识库检索子结构 → MCTS 迭代推理(选择→批判→改写→评分→回传)→ 输出 SMILES 分子结构

关键设计

  1. 分子子结构知识库:
  2. 从分子数据库提取环状和链状子结构 + LLM 自动生成文本描述
  3. 用评分器作为检索桥梁:光谱编码器编码输入光谱 → 分子编码器编码知识库子结构 → 余弦相似度检索 Top-K

  4. 分子-光谱评分器(奖励模型):

  5. 分子编码器:GIN(分子图)+ MLP(指纹)→ 分子嵌入
  6. 光谱编码器:将 C-NMR/H-NMR 的化学位移/裂分模式/偶合常数离散化为 token → Transformer 编码 → 光谱嵌入
  7. NT-Xent 对比学习训练:正配对(分子+其光谱)高相似度
  8. 兼做奖励模型(评估推理结果)和检索器(检索知识库)

  9. MCTS + Self-Refine:

  10. 每个树节点 = 一个完整的分子结构预测
  11. 选择:UCT 平衡探索与利用
  12. 扩展:Critique(批判当前答案+分子图像+分子式)→ Rewrite(改进)
  13. 评估:评分器计算预测分子与输入光谱的相似度作为奖励
  14. 回传:更新父节点 Q 值

实验关键数据

主实验(MolPuzzle 基准)

模型 方法 Morgan FTS↑ MACCS FTS↑ Formula Acc↑ ACC↑
GPT-4o-mini CoT 0.224 0.386 0.097 0.028
GPT-4o-mini MCTSr 0.248 0.428 0.032 0.019
GPT-4o-mini K-MSE 0.301 0.476 0.134 0.060
GPT-4o CoT 0.255 0.468 0.125 0.032
GPT-4o MCTSr 0.281 0.468 0.051 0.037
GPT-4o K-MSE 0.324 0.525 0.199 0.074

关键发现

  • K-MSE 在所有模型/所有指标上一致最优——GPT-4o 的 Morgan FTS 从 0.255 提升到 0.324(+27%)
  • 标准 MCTSr(用 LLM 自身作奖励)有时反而比 CoT 差(Formula Acc 下降)——验证了 LLM 不能自我评估化学推理
  • 知识库和评分器都是关键——消融显示只用其一效果有限
  • 即使 K-MSE 后 ACC 仍然较低(7.4%)——分子结构解析对 LLM 仍极具挑战

亮点与洞察

  • 评分器的双重角色:既作MCTS奖励模型又作知识库检索器,一个模型解决两个问题
  • 化学任务验证了 test-time scaling 的瓶颈:没有准确奖励信号,搜索越多可能越差
  • 子结构知识库的设计思路可推广到其他专业领域(药物/材料等)

局限性 / 可改进方向

  • ACC 仍然很低(~7%),距离实用仍有很大差距
  • 评分器需要专门训练,不能零成本应用新领域
  • 当前仅用 SMILES 表示分子,3D 结构未考虑
  • MCTS 迭代次数增加线性增加成本
  • 可探索将评分器集成到 LLM 训练(而非仅推理时使用)

相关工作与启发

  • vs MCTSr (Zhang et al.):MCTSr 用 LLM 自评,在化学任务上失败;K-MSE 用专用评分器解决了这个根本问题
  • vs ChemCrow/ChatDrug:它们用工具辅助 LLM,K-MSE 更进一步用知识库+评分器+树搜索协同
  • 核心启发:专业领域的 LLM 推理需要"领域专用的奖励信号"——通用 LLM 自评不可靠

评分

  • 新颖性: ⭐⭐⭐⭐ 评分器双角色设计巧妙,知识库+MCTS 的组合在化学领域是首次
  • 实验充分度: ⭐⭐⭐⭐ 多模型多基线对比完整,消融清晰
  • 写作质量: ⭐⭐⭐⭐ 问题定义精确,方法描述系统
  • 价值: ⭐⭐⭐⭐ 对 LLM 科学推理有启发,但 ACC 仍低限制了直接应用