DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking¶

会议: ACL 2025
arXiv: 2502.20730
代码: GitHub
arXiv: 2502.20730
代码: https://github.com/Li-Z-Q/DeepSolution
领域: 模型压缩
关键词: RAG, tree search, engineering solution design, bi-point thinking, benchmark
作者: Zhuoqun Li, Haiyang Yu, Xuanang Chen, Hongyu Lin, Yaojie Lu, Fei Huang, Xianpei Han, Yongbin Li, Le Sun (中科院软件所 & 通义实验室)

一句话总结¶

提出面向复杂工程方案设计的新基准 SolutionBench 和新系统 SolutionRAG，通过树搜索探索+双视角思维（设计-审查交替）在 RAG 框架下逐步生成满足多约束的可靠工程方案，在 8 个工程领域达到 SOTA。

研究背景与动机¶

任务定义: 复杂工程方案设计要求系统针对含多个现实约束的工程需求（如：在年降雨 3000mm、膨胀土、高频地震区设计安全高效的医院建设方案），生成完整且可行的解决方案
现有差距: 以往 RAG 研究主要关注 Multi-hop QA 和 Long-form QA，其答案是实体片段或拼接段落；而工程方案设计需要灵活的改进过程和满足所有约束的完整方案，二者存在本质不同
核心挑战: (1) 从次优方案到可靠方案的改进路径灵活、无固定推理模式；(2) 需求含多个现实约束，单次生成难以保证全部满足

方法详解¶

1. SolutionBench 基准构建¶

构造流程：从权威工程期刊收集技术报告 → 用 GPT-4o 按人工设计的模板提取结构化内容 → 人工校验与去重 → 整合为 8 个工程领域的数据集与知识库。

每条数据包含 5 个字段： - Requirement: 来自真实场景的复杂工程需求 - Solution: 行业专家设计的标准方案 - Analytical Knowledge: 分析需求时使用的专业知识 - Technical Knowledge: 解决需求时使用的技术知识 - Explanation: 专家的方案设计过程说明

覆盖 8 个领域：环境、矿业、交通、航空航天、电信、建筑、水利、农业，共约 950 条数据、约 6000 条知识。

2. SolutionRAG 系统¶

核心思想是在 双视角思维树 (Bi-point Thinking Tree) 上进行树搜索推理：

(a) 双视角思维树结构 - Solution Node: 存放针对需求设计的方案（浅层可靠性低、深层可靠性高） - Comment Node: 存放对某个方案的审查意见（指出方案的不足之处） - 两类节点交替连接：方案节点 → 评论节点 → 更优方案节点 → ...

(b) 节点扩展 — Design & Review - Design: 给定需求 q、上层评论 c 和历史方案 s，先用 LLM 采样生成 H 个改进提案 → 为每个提案从知识库检索相关知识 → 结合这些信息生成更优方案 - Review: 给定需求 q 和当前方案 s，同样生成 H 个审查方向 → 检索知识 → 生成审查评论

(c) 节点评估与剪枝 - 利用 LLM 的 logits 对方案节点和评论节点打分 - 方案评分：拼接方案+评论+后缀 "According to the comment, above solution is reliable"，取平均 logits 作为可靠性分数 - 评论评分：拼接旧方案+评论+新方案+后缀 "Comparing the new solution and old solution, the comment is helpful"，取平均 logits 作为有用性分数 - 每层只保留得分最高的 W 个节点，实现效率与性能的平衡

超参数设置: 树最大深度 L=5，每节点子节点数 H=2，保留节点数 W=1；基座模型 Qwen2.5-7B-Instruct，检索模型 NV-Embed-v2，检索数 R=10。

实验关键数据¶

表 1: SolutionBench 数据统计¶

工程领域	数据条数	知识条数
环境	119	554
矿业	117	543
交通	124	870
航空航天	115	802
电信	116	840
建筑	118	858
水利	119	802
农业	122	868

表 2: 主实验结果（Analytical Score / Technical Score）¶

方法	环境	矿业	交通	航空航天	电信	建筑	水利	农业
o1-2024-12-17	60.5/48.3	51.9/37.5	57.3/44.7	57.8/47.6	63.5/52.3	61.2/52.0	59.9/50.4	62.9/52.2
Naive-RAG	64.8/62.2	57.2/40.1	62.7/54.9	67.7/65.4	67.4/66.8	66.2/63.3	66.0/57.5	65.7/63.0
Self-RAG	64.2/63.6	56.1/41.6	62.9/56.5	68.8/69.9	67.6/66.9	66.7/65.9	64.8/58.6	65.1/61.1
SolutionRAG	66.4/67.9	59.7/50.5	64.1/58.5	69.9/72.7	68.8/69.0	67.9/68.0	66.0/60.7	66.9/65.2

SolutionRAG 在全部 8 个领域均达到 SOTA
矿业领域 TS 较 Naive-RAG 提升 +10.4，较 Self-RAG 提升 +8.9

表 3: 消融实验（Overall AS/TS）¶

配置	Overall AS	Overall TS
SolutionRAG (完整)	66.2	64.1
w/o 树结构（退化为单链）	62.7	61.7
w/o 双视角思维（仅方案，无审查）	62.9	61.5

树搜索和双视角思维对性能贡献相当，均显著正向。

亮点¶

新颖地定义了「复杂工程方案设计」任务，填补 RAG 在工程领域的研究空白
双视角思维（设计+审查交替）是对 self-refine 的结构化升级，通过审查节点显式约束方案的完备性
树搜索 + logits 评分剪枝机制简洁高效，仅用 7B 模型即可超越 o1 等大模型
构建了覆盖 8 个工程领域、含专家标注的高质量基准 SolutionBench

局限性¶

仅利用现有 LLM 能力，未引入强化学习训练，方案质量受基座模型上限制约
受 GPU 资源限制，未充分探索树的宽度 H 和深度 L 等超参数空间
评估依赖 GPT-4o 打分，可能存在评分偏差
论文领域标注为 model_compression，实际为 RAG/工程设计方向，分类有偏差

与相关工作的对比¶

对比维度	已有方法	SolutionRAG
任务类型	Multi-hop QA / Long-form QA	复杂工程方案设计（多约束+完整方案）
推理结构	单链迭代（Self-RAG/RQ-RAG）	双视角思维树（方案-审查交替）
约束满足	无显式保障机制	审查节点显式检测约束缺失
MCTS-based RAG	缺乏工程约束保障机制	通过 bi-point thinking 保障方案可靠性

评分¶

新颖性: ⭐⭐⭐⭐ — 首次定义工程方案设计任务+构建专用基准，双视角思维树是有趣的结构创新
实验充分度: ⭐⭐⭐⭐ — 8 领域全面测试+消融+树深度分析+剪枝有效性验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示直观，任务定义明确
实用价值: ⭐⭐⭐ — 基准和系统有实际工程参考意义，但 GPT-4o 评估成本较高