Boosting LLM's Molecular Structure Elucidation with Knowledge Enhanced Tree Search Reasoning¶

会议: ACL 2025
arXiv: 2506.23056
代码: https://github.com/HICAI-ZJU/K-MSE
领域: LLM / 科学推理
关键词: 分子结构解析, MCTS, 知识库增强, 光谱-分子评分器, test-time scaling

一句话总结¶

提出 K-MSE，通过构建分子子结构知识库补充 LLM 化学知识 + 设计分子-光谱评分器作为奖励模型 + MCTS 树搜索推理框架，在分子结构解析任务上将 GPT-4o-mini 和 GPT-4o 的性能提升超过 20%。

领域现状：分子结构解析——从 NMR/IR 光谱数据推断分子结构——是化学实验分析的核心任务，即使专家也需要 10-15 分钟推理一个分子。LLM 在化学任务上有潜力但面临重大挑战。
现有痛点：(a) LLM 缺乏足够的化学分子结构空间覆盖——常将不熟悉的子结构（如噻吩）误识别为常见结构（如苯环）；(b) LLM 无法准确评估自己的推理结果——作为奖励模型时效果差，无法有效指导树搜索。
核心矛盾：树搜索推理需要两个条件——足够的领域知识和准确的奖励信号——LLM 在分子结构解析任务上两者都缺乏。
本文要解决什么？ 通过外部知识库补充知识 + 专用评分器提供准确奖励，让 MCTS 推理在化学任务上有效运转。
切入角度：知识库提供子结构参考，评分器兼作奖励模型和检索桥梁，MCTS+Self-Refine 实现迭代优化。
核心 idea 一句话：知识库补知识、评分器补反馈、MCTS 框架让 LLM 能像化学家一样迭代-反思-改进分子结构推理。

输入：IR 光谱（图像）+ C-NMR + H-NMR + 分子式 → 知识库检索子结构 → MCTS 迭代推理（选择→批判→改写→评分→回传）→ 输出 SMILES 分子结构

模型	方法	Morgan FTS↑	MACCS FTS↑	Formula Acc↑	ACC↑
GPT-4o-mini	CoT	0.224	0.386	0.097	0.028
GPT-4o-mini	MCTSr	0.248	0.428	0.032	0.019
GPT-4o-mini	K-MSE	0.301	0.476	0.134	0.060
GPT-4o	CoT	0.255	0.468	0.125	0.032
GPT-4o	MCTSr	0.281	0.468	0.051	0.037
GPT-4o	K-MSE	0.324	0.525	0.199	0.074