跳转至

Tree-of-Debate: Multi-Persona Debate Trees Elicit Critical Thinking for Scientific Comparative Analysis

会议: ACL 2025
arXiv: 2502.14767
作者: Priyanka Kargupta, Ishika Agarwal, Tal August, Jiawei Han (UIUC) 代码: GitHub
领域: others
关键词: 多智能体辩论, 论文对比分析, 树结构推理, 检索增强生成, 科学文献摘要

一句话总结

提出Tree-of-Debate (ToD)框架,将科学论文转化为LLM persona进行树结构化辩论,通过自我审议、迭代检索和主持人引导的层级子话题扩展,生成细粒度、上下文化的论文对比摘要,在领域专家评估中显著优于基线方法。

研究背景与动机

问题背景

随着科学文献的爆炸式增长(arXiv 2024年10月单月提交超24,000篇),研究者面临巨大挑战:难以识别相关论文间的新颖发现、增量贡献和等价思想,特别是来自不同研究社区的相似工作。自动生成论文对比摘要对文献综述具有重要价值。

已有工作的不足

  • 现有对比摘要方法(如Two-Stage pipeline)通常采用"先提取再对比"的两步策略,但仅关注表面语义差异,无法捕捉最相关的深层区别
  • 非结构化LLM生成倾向于产生提取式摘要,将语义相似/不相似的短语直接列为相似/差异,缺少"为什么"的上下文解释
  • 长文本处理困难:直接提供整篇论文导致细节被淹没,仅用标题和摘要又只能产生高层表面对比
  • 缺乏非互引论文对比数据集:现有工作忽略了不互相引用的论文对比场景,而这在文献爆炸时代极为常见

核心动机

设计一个结构化的多persona辩论框架,利用树结构分解论文贡献为独立子话题,通过辩论式批判推理揭示细粒度的相似性和差异性,同时通过迭代检索确保事实准确性。

方法详解

整体框架

ToD由三个核心角色组成:两个论文persona(分别代表待比较的两篇论文)和一个主持人(Moderator)。给定两篇论文\(p_1, p_2\)和一个根话题\(n_0\),框架动态构建一棵辩论树\(T\),每个节点代表一个具体贡献话题的辩论轮次。

段落级检索(Segment-level Retrieval)

  • 使用检索嵌入模型将每篇论文切分为约三句话的段落
  • 基于余弦相似度按话题\(n_i\)检索最相关的\(\delta\)个段落
  • 查询格式:"[话题名称] : [话题描述]"

Persona构建

  • 论文Persona:被赋予论文的标题、摘要和与当前话题相关的检索段落,角色是论证自身贡献优于对手
  • 主持人:使用相同底层模型,负责(i)识别关键辩论子话题,(ii)判断辩论进展,(iii)将辩论树综合为对比摘要

树节点辩论流程(三阶段)

阶段1:自我审议(Self-Deliberation) 1. 每个persona检索与当前话题\(n_i\)相关的段落\(S_i^a\) 2. 生成\(k\)个新颖性声明\(C_i^a\),并映射对应证据\(E_i^a \subseteq S_i^a\) 3. 预判反驳(Preemption):将对手的声明\(C_i^b\)暴露给persona \(p_a\),后者从自己论文中检索反驳证据\(\widetilde{E}_i^a\),通过LLM过滤步骤判断证据是否支持/反驳/澄清对手声明 4. 主持人基于双方声明和证据生成\(k\)个子话题

阶段2:辩论(Debate) 对每个子话题节点\(n_j^i\),每个persona依次: 1. 陈述(Present):论证自身在该子话题上优于对手 2. 回应(Respond):回应对手论点,提出质疑或澄清问题 3. 修正(Revise):基于交互修正自身论点

阶段3:扩展判定(Determine Expansion) 主持人评估三个条件: - 论点是否有足够进展或引入新概念? - 是否存在未回答的有价值问题? - 是否已有明确"赢家"无需进一步分解? 满足前两者之一或第三者不成立,则触发新一轮自我审议并向下扩展树。

辩论综合

当所有辩论路径充分扩展后,主持人将整棵辩论树综合为段落式对比摘要,先阐述相似性再详述差异性。

实验关键数据

实验设置

  • 基座模型:Llama-3.1-Nemotron-70B-Instruct-HF(开源)
  • 数据集:100对论文,涵盖NLP、数据挖掘、电气工程、航空航天四个领域,由5位领域专家构建和评估
  • 论文对分类:互引(30对) vs 非互引(70对);方法差异(45对) vs 任务差异(55对)
  • 评估指标:事实性(Factuality, 0/1二值句级)、广度(Breadth, 0-4)、上下文化(Contextualization, 0-4)

主实验结果(Table 2,整体性能)

方法 Breadth↑ Context↑ Factuality↑
Single Stage 89.04 72.80 93.59
Two Stage 86.77 75.46 94.12
ToD (No Tree) 80.74 70.04 89.78
ToD (No SD) 85.99 91.27 79.99
Tree-of-Debate 94.92 95.28 93.87

ToD在广度上比最优基线高约6.85%,在上下文化上高约25.98%,同时保持高事实性。

领域级性能(Table 5)

领域 ToD Breadth ToD Context ToD Fact
NLP 95.08 95.83 94.78
数据挖掘 91.67 100.00 90.99
电气工程 98.08 88.46 91.36
航空航天 100.00 90.00 88.64

ToD在所有领域均展现强劲性能,在NLP和数据挖掘领域增益最大;电气和航空领域事实性略有下降,推测与模型预训练知识中这些领域信息相对较少有关。

消融实验关键发现

  • 去除树结构(No Tree):上下文化和广度显著下降,说明结构化辩论对细粒度分析至关重要
  • 去除自我审议(No SD):上下文化仍保持较高(91.59%),但事实性和广度大幅下降,证明迭代检索是减少幻觉、保证广度覆盖的关键
  • 辩论深度影响:深度从1增至3时,事实性和上下文化均显著提升;深度1易产生表面化、过度正面的陈述

亮点

  • 树结构辩论的创新设计:将论文贡献分解为层级子话题独立辩论,避免了非结构化辩论中多个论点纠缠导致的推理困难,上下文化评分达95.28%
  • 自我审议+预判反驳机制:persona在辩论前不仅准备自身论点,还预判对手声明并检索反驳证据,模拟了真实学术辩论中的充分准备过程
  • 迭代检索保证深度与准确性:随辩论进展动态更新证据池,确保每个子话题的讨论有充分的论文细节支撑,有效抑制了幻觉
  • 鲁棒性强:在互引/非互引、方法差异/任务差异四种设定下性能标准差仅2.49,远低于基线方法
  • 专家构建数据集:填补了非互引论文对比分析数据集的空白,100对论文涵盖4个跨学科领域

局限与展望

  • 辩论质量依赖基座模型:在模型预训练知识较薄弱的领域(电气/航空),事实性有所下降,辩论中"回应"阶段的质量直接受限于模型能力
  • 深层辩论可能引入噪声:当论文中缺乏支撑细粒度声明的证据时,persona会"发明"潜在的未来研究或新方法,引入轻微噪声
  • 事实性与上下文化的权衡:在需要更大推理"跳跃"的任务差异对比中,ToD为识别论文间联系可能混淆两篇论文的事实
  • 计算成本高:树结构多轮辩论需要大量LLM推理调用,扩展到大规模文献比较时成本显著
  • 仅限两篇论文对比:当前框架固定为双方辩论,未扩展至多篇论文的群体对比场景
  • 数据集规模有限:100对论文、5位评估者,规模较小,跨领域泛化性仍需更大规模验证

与相关工作的对比

  • Single Stage / Two Stage基线:直接用LLM生成对比摘要,倾向于产生提取式、缺乏上下文解释的摘要;ToD在上下文化上领先约20-25个百分点
  • Liang et al. (2024) 多智能体辩论:用正反方辩论+裁判来减少确认偏差、提升推理质量,但辩论作为手段而非目标;ToD将辩论本身作为输出,树结构使贡献分解更精细
  • Portenoy et al. (2022) 作者Persona:为作者推荐创建persona,基于命名实体匹配;ToD创建的是论文persona,主动辩论和捍卫论文贡献
  • ContributionSum (Liu et al. 2023) / DIR (Wang et al. 2024a):前者生成解耦贡献摘要但需要微调,后者需要基于gold standard的结构化微调;ToD纯推理时工作,无需训练,领域无关
  • Graph-based方法 (Chen et al. 2022; Stroehle et al. 2023):分类句子为声明/相似/差异并打分生成提取式摘要;ToD生成抽象式、上下文化的摘要

评分

  • 新颖性: ⭐⭐⭐⭐ — 树结构辩论框架设计新颖,自我审议+预判反驳+迭代检索的组合很有创意
  • 实验充分度: ⭐⭐⭐⭐ — 领域专家评估、多维指标、消融实验和案例分析充分,但数据集规模较小
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图示和案例展示有效,方法描述详尽
  • 价值: ⭐⭐⭐⭐ — 对科学文献对比分析提供实用工具,框架思想可扩展至其他复杂推理任务

相关论文