Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback¶

信息	内容
会议	ACL 2025
arXiv	2501.03916
代码	GitHub
领域	others (自动科研 × LLM Agent × 代码生成)
关键词	auto-research, closed-loop, idea generation, experimental verification, feedback

一句话总结¶

提出 Dolphin，一个闭环自动科研框架，包含"想法生成→实验验证→结果反馈"三阶段循环，通过任务属性引导的论文排序和异常回溯引导的调试流程，在 3D 分类等任务上自动提出并验证了接近人类设计 SOTA 的方法。

研究背景与动机¶

科研范式变革：AI 辅助科研正从"完全人类驱动"向"自动科研"演进，经历四个阶段：完全人驱 → AI 辅助 → 半自动 → 全自动。
现有工作的关键挑战：
想法评估不准确：大多工作 (Si et al., 2024; Li et al., 2024) 依赖人或 LLM 评估想法质量，但仅关注新颖性而非实验有效性。AI-Scientist (Lu et al., 2024) 虽做了实验验证但使用简单自建数据集，缺乏与同领域方法的有意义对比。
缺乏反馈机制：人类研究者根据实验结果迭代改进想法，但现有工作要么在孤立的想法生成阶段内反馈，要么完全缺乏反馈。
核心动机：构建一个真正的"闭环"系统——实验结果反馈到下一轮想法生成，模拟人类研究者的迭代研究过程。

方法详解¶

整体框架¶

Dolphin 由三个核心过程组成闭环（图 2）：

1. 想法生成过程 (Ideas Generation Process)

论文检索与排序¶

使用 Semantic Scholar API 检索 50 篇相关论文
任务属性引导排序 (Task-Attribute-Guided Paper Ranking)：
- LLM 先提取输入任务的属性（模型输入、输出等特征）
- 按两个标准对论文打分（1-10）：主题相关性 & 任务属性匹配度
- 过滤掉 8 分以下的论文
- 效果：对 3D 分类任务，3D 检测等不相关论文显著减少

想法生成与过滤¶

基于已排序高相关论文，LLM 生成 N 个想法（每个含标题、实验计划、摘要）
独立性检查：用句子嵌入计算想法间余弦相似度，阈值 0.8 过滤冗余
维护想法库 B（存储已检查过的想法嵌入）
新颖性检查：通过 Semantic Scholar 搜索判断想法是否新颖

2. 实验验证过程 (Experimental Verification Process)

LLM 生成详细实验计划并修改参考代码
核心创新：异常回溯引导的调试过程 (Exception-Traceback-Guided Debugging)
- 直接喂 traceback 给 LLM 的执行成功率低（4/15），因 LLM 无法理解复杂的嵌套关系
- 解决方案：从 traceback 中提取信息 → 引导 LLM 生成与错误相关的局部代码结构 → 基于代码结构和 traceback 进行修复
- 仅关注自定义代码，排除库函数调用
- 最多 5 次调试迭代
- 效果：成功率从 33.3% 提升到 50.0%

3. 结果反馈过程 (Results Feedback Process)

将实验结果分为三类：提升、维持、下降
将维持/下降想法的嵌入加入想法库 B 以避免冗余验证
将提升性能的想法加入下一轮的想法生成 prompt
闭环效果：Loop 1 改进率 2/7 → Loop 3 改进率 4/8

实验¶

实验设置¶

LLM Agent：GPT-4o-2024-08-06（想法生成）；DeepSeek-v2.5 via Ollama（代码执行）
任务：
- 3D 点云分类：ModelNet40 + PointNet 基线
- 2D 图像分类：CIFAR-100 + WRN-28-10 基线
- 情感分类：SST-2 + BERT-base 基线
每个任务做 2 轮循环（共 40 个想法）

主实验结果¶

任务	基线	平均提升	最大提升	人类设计 SOTA	有效想法数
ModelNet40 OA	91.0 (PointNet)	92.0 (+1.0)	93.9 (+2.9)	93.8 (GPSFormer)	5/40
ModelNet40 mAcc	87.6 (PointNet)	88.7 (+1.1)	91.1 (+3.5)	91.8 (GPSFormer)	5/40
CIFAR-100	81.2 (WRN)	81.8 (+0.6)	82.0 (+0.8)	82.2 (ResNeXt)	6/40
SST-2	91.0 (BERT-base)	91.8 (+0.8)	92.5 (+1.5)	93.1 (BERT-large)	6/40

亮点结果：在 ModelNet40 上自动生成的 PointNet-CSR 达到 93.9% OA，接近人类设计的 SOTA GPSFormer (93.8%)！

MLE-bench 结果¶

任务	代码来源	之前分数	Dolphin 分数
社交侮辱检测	AIDE	81.0	84.7
表格预测	Kaggle	95.3	96.2
毒性评论分类	Kaggle	94.7	97.2

Dolphin 可以灵活集成 AIDE、Agent Laboratory 等框架
能进行技术/代码版本更新

消融实验¶

想法生成过程分析¶

方法	新颖想法数	平均成本/想法
朴素生成（无检索）	8/20	$0.106
朴素检索 + 生成	13/20	$0.187
任务属性过滤（本文）	19/20	$0.184

任务属性过滤将新颖想法比例从 40% 提升到 95%

调试过程分析¶

局部代码结构	Traceback 信息提取	成功执行率 (L1/L2/L3)
✗	✗	4/15, 5/13, 5/14
✓	✗	3/15, 5/13, 6/14
✓	✓	7/15, 6/13, 8/14

仅加局部代码结构不够（可能包含无关库信息），需要从 traceback 提取信息来聚焦自定义代码

闭环反馈分析¶

循环	Loop 1	Loop 2	Loop 3
改进率	2/7	3/6	4/8

随迭代推进，想法质量持续提升，验证了闭环反馈的价值

案例分析：PointNet-CSR vs DGCNN¶

维度	DGCNN（人类设计）	PointNet-CSR（Dolphin）
想法层次	架构级	模块级
参数	有可学习参数	无可学习参数
结构	重复块	单模块
mAcc / OA	90.2% / 92.9%	91.1% / 93.9%
训练速度	~20.86s/epoch	~6.12s/epoch (>3x faster)

PointNet-CSR 通过更简洁的架构实现了更好且更快的性能。

亮点与洞察¶

真正的闭环：实验结果 → 反馈 → 下一轮想法生成，是目前自动科研框架中少有的完整闭环设计。
在公开 benchmark 上验证：不同于 AI-Scientist 使用自建数据集，Dolphin 在 ModelNet40、CIFAR-100、SST-2 等标准 benchmark 上验证想法有效性。
接近人类 SOTA：3D 分类上自动生成的方法达到 93.9%，接近甚至匹配人类精心设计的方法。
成本低廉：每个想法的平均成本仅 ~$0.2。
异常回溯引导调试：解决了 LLM 理解复杂嵌套代码的成功率问题，从一般性的"喂 error log"提升为结构化的"局部代码分析"。

局限性¶

知识泄漏：LLM 的历史知识可能导致"重新发现"已有方法而非真正创新。
仅用摘要和标题：想法生成仅基于论文的标题和摘要，无法深入理解技术细节和论文间逻辑。
代码能力限制：LLM 无法理解复杂的项目级代码，限制了对复杂任务的验证能力。
有效想法比例不高：40 个想法中仅 5-6 个有效（12.5-15%），大量计算资源用于无效验证。
任务范围有限：验证的基线模型相对简单（PointNet, WRN, BERT-base），未在更复杂的现代架构上尝试。
反馈信号简单：仅用"提升/维持/下降"分类，缺乏对失败原因的深入分析。

评分 ⭐⭐⭐⭐¶

闭环设计理念正确且效果已验证（循环间改进率持续提升），在标准 benchmark 上接近人类 SOTA 的结果令人印象深刻。任务属性引导排序和异常回溯调试都是实用的技术贡献。主要限制在于有效想法比例不高、基线模型相对简单、以及 LLM 知识泄漏的隐患。但整体而言，这是向全自动科研迈出的扎实一步。