Boosting LLM's Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning¶
会议: ACL 2025
arXiv: 2506.23056
代码: https://github.com/HICAI-ZJU/K-MSE
领域: LLM / 科学推理
关键词: 分子结构解析, MCTS, 知识库增强, 光谱-分子评分器, test-time scaling
一句话总结¶
提出 K-MSE,通过构建分子子结构知识库补充 LLM 化学知识 + 设计分子-光谱评分器作为奖励模型 + MCTS 树搜索推理框架,在分子结构解析任务上将 GPT-4o-mini 和 GPT-4o 的性能提升超过 20%。
研究背景与动机¶
- 领域现状:分子结构解析——从 NMR/IR 光谱数据推断分子结构——是化学实验分析的核心任务,即使专家也需要 10-15 分钟推理一个分子。LLM 在化学任务上有潜力但面临重大挑战。
- 现有痛点:(a) LLM 缺乏足够的化学分子结构空间覆盖——常将不熟悉的子结构(如噻吩)误识别为常见结构(如苯环);(b) LLM 无法准确评估自己的推理结果——作为奖励模型时效果差,无法有效指导树搜索。
- 核心矛盾:树搜索推理需要两个条件——足够的领域知识和准确的奖励信号——LLM 在分子结构解析任务上两者都缺乏。
- 本文要解决什么? 通过外部知识库补充知识 + 专用评分器提供准确奖励,让 MCTS 推理在化学任务上有效运转。
- 切入角度:知识库提供子结构参考,评分器兼作奖励模型和检索桥梁,MCTS+Self-Refine 实现迭代优化。
- 核心 idea 一句话:知识库补知识、评分器补反馈、MCTS 框架让 LLM 能像化学家一样迭代-反思-改进分子结构推理。
方法详解¶
整体框架¶
输入:IR 光谱(图像)+ C-NMR + H-NMR + 分子式 → 知识库检索子结构 → MCTS 迭代推理(选择→批判→改写→评分→回传)→ 输出 SMILES 分子结构
关键设计¶
- 分子子结构知识库:
- 从分子数据库提取环状和链状子结构 + LLM 自动生成文本描述
-
用评分器作为检索桥梁:光谱编码器编码输入光谱 → 分子编码器编码知识库子结构 → 余弦相似度检索 Top-K
-
分子-光谱评分器(奖励模型):
- 分子编码器:GIN(分子图)+ MLP(指纹)→ 分子嵌入
- 光谱编码器:将 C-NMR/H-NMR 的化学位移/裂分模式/偶合常数离散化为 token → Transformer 编码 → 光谱嵌入
- NT-Xent 对比学习训练:正配对(分子+其光谱)高相似度
-
兼做奖励模型(评估推理结果)和检索器(检索知识库)
-
MCTS + Self-Refine:
- 每个树节点 = 一个完整的分子结构预测
- 选择:UCT 平衡探索与利用
- 扩展:Critique(批判当前答案+分子图像+分子式)→ Rewrite(改进)
- 评估:评分器计算预测分子与输入光谱的相似度作为奖励
- 回传:更新父节点 Q 值
实验关键数据¶
主实验(MolPuzzle 基准)¶
| 模型 | 方法 | Morgan FTS↑ | MACCS FTS↑ | Formula Acc↑ | ACC↑ |
|---|---|---|---|---|---|
| GPT-4o-mini | CoT | 0.224 | 0.386 | 0.097 | 0.028 |
| GPT-4o-mini | MCTSr | 0.248 | 0.428 | 0.032 | 0.019 |
| GPT-4o-mini | K-MSE | 0.301 | 0.476 | 0.134 | 0.060 |
| GPT-4o | CoT | 0.255 | 0.468 | 0.125 | 0.032 |
| GPT-4o | MCTSr | 0.281 | 0.468 | 0.051 | 0.037 |
| GPT-4o | K-MSE | 0.324 | 0.525 | 0.199 | 0.074 |
关键发现¶
- K-MSE 在所有模型/所有指标上一致最优——GPT-4o 的 Morgan FTS 从 0.255 提升到 0.324(+27%)
- 标准 MCTSr(用 LLM 自身作奖励)有时反而比 CoT 差(Formula Acc 下降)——验证了 LLM 不能自我评估化学推理
- 知识库和评分器都是关键——消融显示只用其一效果有限
- 即使 K-MSE 后 ACC 仍然较低(7.4%)——分子结构解析对 LLM 仍极具挑战
亮点与洞察¶
- 评分器的双重角色:既作MCTS奖励模型又作知识库检索器,一个模型解决两个问题
- 化学任务验证了 test-time scaling 的瓶颈:没有准确奖励信号,搜索越多可能越差
- 子结构知识库的设计思路可推广到其他专业领域(药物/材料等)
局限性 / 可改进方向¶
- ACC 仍然很低(~7%),距离实用仍有很大差距
- 评分器需要专门训练,不能零成本应用新领域
- 当前仅用 SMILES 表示分子,3D 结构未考虑
- MCTS 迭代次数增加线性增加成本
- 可探索将评分器集成到 LLM 训练(而非仅推理时使用)
相关工作与启发¶
- vs MCTSr (Zhang et al.):MCTSr 用 LLM 自评,在化学任务上失败;K-MSE 用专用评分器解决了这个根本问题
- vs ChemCrow/ChatDrug:它们用工具辅助 LLM,K-MSE 更进一步用知识库+评分器+树搜索协同
- 核心启发:专业领域的 LLM 推理需要"领域专用的奖励信号"——通用 LLM 自评不可靠
评分¶
- 新颖性: ⭐⭐⭐⭐ 评分器双角色设计巧妙,知识库+MCTS 的组合在化学领域是首次
- 实验充分度: ⭐⭐⭐⭐ 多模型多基线对比完整,消融清晰
- 写作质量: ⭐⭐⭐⭐ 问题定义精确,方法描述系统
- 价值: ⭐⭐⭐⭐ 对 LLM 科学推理有启发,但 ACC 仍低限制了直接应用