DeepDebater: A Superpersuasive Autonomous Policy Debating System¶

会议: AAAI 2026
arXiv: 2511.17854
代码: GitHub
领域: 多Agent系统 / 计算论辩 / AI说服力
关键词: 政策辩论, 多Agent协作, LLM, 证据检索, 自主辩论, TTS, 数字人, AG2

一句话总结¶

提出 DeepDebater，首个能参与并赢得完整美式政策辩论赛的自主多 Agent 系统——层级式 Agent 工作流分工完成论证构建（正方 Advantage/反方 DA+CP+K），基于 OpenDebateEvidence 300 万张证据卡做检索增强，辅以 GPT-4o TTS 语音合成和 EchoMimic 数字人动画，在专家评估和模拟对局中全面超越人类编写的案例。

背景与动机¶

高度复杂的、基于证据的策略性说服是 AI 的重大挑战。IBM Project Debater 是最知名的 AI 辩论系统，但存在根本局限：

格式简化：非标准极短格式，面向外行观众，不存在此类锦标赛
证据浅：引用少量证据做短发言，而真实辩论需密集、近乎逐字的证据引用
非迭代：不做完整八轮辩论，不处理交叉质询、反驳和策略博弈

美式策略辩论（Policy Debate）是理想试炼场：结构严格（八轮发言+交叉质询），重度依赖证据，需长期战略加即时战术。

核心问题¶

能否构建自主 AI 系统完整参与美式策略辩论所有八轮发言，并在证据质量、论证策略上超越人类？

方法详解¶

整体框架¶

模块化流水线框架，核心包含证据库 + 多Agent对话架构。

关键设计¶

证据检索：基于 OpenDebateEvidence（300万+张真实辩论"卡片"），索引到 DuckDB，BM25 检索。每个主张必须可追溯到具体证据。Agent 常对每个论点检索上百张证据后选择最优。
多Agent工作流：AG2/Autogen 框架，每个工作流包含专门化 Agent（gpt-4.1-mini）：生成器+评审器，迭代循环直到满意。Pydantic 保证结构化输出。
辩论生成流水线：
1AC：Plan-text → Harms/Inherency/Solvency → Advantage（Uniqueness+Link+Internal Link+Impact）
1NC：战略组合 → Topicality + DA + CP + Kritik + On-Case 反驳
后续：2AC→2NC→1NR→1AR→2NR→2AR，每轮以全前文为上下文
交叉质询：两Agent对话模拟
裁判：独立 Judge Agent（Claude/Gemini）
语音+数字人：GPT-4o mini TTS → EchoMimic V1 数字人唇形同步
人机协作：支持 AI vs AI、人+AI 混合、AI vs 人多种模式

实验关键数据¶

专家评估（5位10年+经验辩论教练，1-5分）¶

指标	DeepDebater	人类编写
Quality（战略+说服力）	4.32 ± 0.31	3.65 ± 0.52
Factuality（事实准确性）	4.45 ± 0.25	3.98 ± 0.23
Faithfulness（标签忠实度）	4.81 ± 0.19	4.05 ± 0.48

模拟对局（20场，AI 裁判）¶

系统作为正方和反方均获得高胜率

关键观察¶

Faithfulness 差距最大——AI 在标签准确概括证据方面优势明显
所有三项指标均显著超越人类编写案例

亮点¶

首个完整策略辩论 AI：覆盖所有八轮+交叉质询+反驳
层级式多Agent分工精巧：每个辩论组件有专门工作流
重度证据支撑：300万张证据检索增强，每主张可追溯
人机协作设计：允许人类任何环节介入
端到端呈现：文本→语音→数字人动画

局限性 / 可改进方向¶

BM25 检索偏弱：嵌入式检索会显著提升质量但因成本未实现
仅 AI 裁判评估模拟对局：人类裁判评估不足
评估规模小：20场+5位专家，统计显著性有限
双用风险：超级说服力的伦理问题
缺少与 Project Debater 直接对比

与相关工作的对比¶

vs IBM Project Debater：简化格式+浅证据+外行观众 vs 完整策略辩论+密集证据+专家评委
vs 一般 LLM 说服力研究：在专业实战辩论环境验证
vs AutoGen/AG2：展示层级管线化多Agent协作在创造性任务的有效性

启发与关联¶

层级式Agent分工+迭代检索/生成/批评循环是处理复杂创造性任务的通用架构
"每个主张可追溯到证据"的理念值得所有 RAG 系统借鉴
AI 辩论进步对安全（说服力滥用）和教育（辩论训练）都有重要意义

评分¶

新颖性: ⭐⭐⭐⭐ 首个完整策略辩论 AI，层级Agent架构创新
实验充分度: ⭐⭐⭐ 有专家评估但规模偏小
写作质量: ⭐⭐⭐⭐ 背景详尽，系统完整
价值: ⭐⭐⭐⭐ 多Agent创造性任务案例研究和 AI 说服力里程碑