Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement¶

会议: ACL 2025
arXiv: 2506.03541
代码: https://github.com/zhouxiaofengshelf/D-R (有)
领域: LLM对齐
关键词: 多智能体辩论, 知识蒸馏, 偏好优化, 自我反思, 树结构DPO

一句话总结¶

提出 D&R 框架，让小模型（student）与多个大模型（teacher）进行多轮辩论并收集自我反思和教师反馈，然后将辩论日志组织为偏好树做 Tree-structured DPO (T-DPO) 蒸馏，在 MMLU Pro 和 MATH 上平均提升 14.18 分，且推理效率优于基线。

研究背景与动机¶

领域现状：大型 LLM 性能优异但部署成本高，知识蒸馏是缩小大小模型差距的重要手段。多智能体辩论已被证明能提升推理质量，但如何将辩论中的知识蒸馏到小模型尚缺乏系统方法。
现有痛点：(a) 传统蒸馏仅用教师模型的最终输出，丢失了推理过程中的纠错信息；(b) MAGDi 等方法虽利用辩论数据但未充分挖掘辩论中的结构化反馈信息（自我反思、教师纠正）；(c) 标准 DPO 不适合处理多轮辩论中的层级化偏好数据。
核心矛盾：多轮辩论产生丰富的推理轨迹和纠错信号，但如何将这些非结构化的对话日志转化为有效的训练信号？
本文要解决什么？ 设计一个完整的 pipeline：从多智能体辩论中高效提取结构化学习信号，并用适配的偏好优化方法蒸馏到小模型。
切入角度：辩论中的每一轮都包含"之前的反馈+当前回答"的层级结构，天然适合用树结构表示——正确回答和错误回答作为同一根节点的子节点，根节点包含上一轮的结构化信息。
核心 idea 一句话：通过多轮辩论收集自我反思和教师反馈，将辩论日志组织为偏好树后做 T-DPO 蒸馏到小模型。

方法详解¶

整体框架¶

三阶段流水线：(1) Debate——student 与 3 个 teacher 进行最多 4 轮辩论，收集各轮的回答、自我反思和教师反馈，构建多智能体交互图 (MAG)；(2) Reflect——从 MAG 中提取偏好树，每棵树的根节点是"问题+前一轮的结构化信息"，叶节点是正确和错误的回答；(3) Distill——两阶段训练：先在正确回答上做 SFT，再在偏好树上做 T-DPO。

关键设计¶

多智能体辩论 (Debate):
做什么：让 student (Mistral-7B) 与 3 个 teacher (GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro) 进行多轮讨论
核心思路：每轮中，所有 agent 收到上一轮的结构化信息（回答、自我反思、教师反馈），生成新回答。回答错误的 agent 做自我反思，回答正确的 agent 给错误 agent 提供建设性反馈。最多 4 轮或达成共识后停止
设计动机：辩论过程中的纠错动态比单纯的模仿学习提供更丰富的学习信号——student 不仅看到正确答案，还看到"哪里错了、为什么错了、如何纠正"
偏好树构建 (Reflect):
做什么：从多智能体交互图中提取结构化的偏好对
核心思路：对辩论中每一轮，以"问题+上一轮结构化信息(prior responses, self-reflections, teacher feedback)"为根节点，从错误→正确的回答为 chosen，从正确→错误或持续错误的回答为 rejected。一次辩论可产生多棵偏好树（数据量放大 2.5-7.7 倍）
设计动机：树结构将辩论的层级关系编码为偏好对，使 DPO 能学到"在给定反馈后应该如何纠正"
T-DPO 蒸馏 (Distill):
做什么：两阶段训练小模型
核心思路：Stage 1 - SFT：在正确回答上用标准语言建模损失训练 \(\mathcal{L}_{SFT} = -\mathbb{E} \log \pi_\theta(y|I,x)\)。Stage 2 - T-DPO：在偏好树上做 DPO，根节点的结构化信息作为额外上下文 \(\mathcal{L}_{T-DPO} = -\mathbb{E}[\log \sigma(\beta \log \frac{\pi_\theta(y_w|I,x,SI)}{\pi_{ref}(y_w|I,x,SI)} - \beta \log \frac{\pi_\theta(y_l|I,x,SI)}{\pi_{ref}(y_l|I,x,SI)})]\)。\(\pi_{ref}\) 从 SFT 模型初始化
设计动机：SFT 教会模型生成正确回答，T-DPO 教会模型在看到反馈后如何纠正错误——两者互补

训练策略¶

使用 LoRA 微调（rank=16, alpha=32）
Teacher 模型：GPT-4o + Claude 3.5 Sonnet + Gemini 1.5 Pro
Student 模型：Mistral-7B-Instruct-v0.2 (主实验), Llama-3.1-8B (扩展实验)

实验关键数据¶

主实验（Mistral-7B → D&R）¶

方法	CS	Physics	Biology	MATH	平均
No Distillation	20.49	18.46	48.95	8.02	23.98
Single Teacher (Claude 3.5)	30.73	30.77	62.76	16.56	35.21
MAGDi (Multi-Teacher)	22.93	20.00	54.39	11.26	27.15
D&R (SFT only)	32.68	29.23	64.44	17.64	36.00
D&R (Full)	33.17	34.77	67.36	17.32	38.16

平均提升 14.18 分（23.98→38.16），生物学提升最大（+18.41）。推理时 token 消耗 528.83 vs 基线 627.10，效率也更优。

消融实验¶

配置	MATH Accuracy
D&R (Full)	34.77
w/o 自我反思数据	33.85 (-0.92)
w/o 教师反馈数据	32.31 (-2.46)
w/o 两者	31.38 (-3.39)
+ 推理时自我反思	36.92 (+2.15)

关键发现¶

教师反馈比自我反思贡献更大：去掉教师反馈 -2.46 vs 去掉自我反思 -0.92，说明来自强模型的显式纠错更有指导价值
T-DPO 对弱模型效果有限但对中等模型有效：在 Llama-3.1-8B 上 T-DPO 比 SFT-only 提升 0.96 分（47.06→48.02），而 Mistral-7B 上在 MATH 上 SFT 略优于 T-DPO
数据效率高：仅 100 次辩论即可获得显著提升，D&R 在所有数据规模下均优于 MAGDi
推理效率也提升：D&R 不仅准确率高，推理时的 token 消耗还更少（528 vs 627）

亮点与洞察¶

辩论→偏好树→DPO 的完整 pipeline：将非结构化的多轮对话转化为结构化的偏好训练数据，方法论上有创新。这种"从交互中提取训练信号"的范式可迁移到其他多智能体学习场景
数据放大效应：一次辩论可提取多棵偏好树（2.5-7.7 倍数据放大），相比传统单轮蒸馏数据量更丰富
推理时自我反思能力：训练后模型学会了自我纠错（推理时加入自我反思 prompt 即可进一步提升 +2.15 分），说明辩论中的纠错模式被成功内化

局限性 / 可改进方向¶

仅验证了知识/推理任务：是否推广到生成、分类等其他任务类型未知
评估仅看最终答案正确性：未验证推理路径的有效性，可能存在"答案对但推理错"的假阳性
辩论成本高：需调用 3 个商业 API（GPT-4o, Claude, Gemini），虽然只在数据生成阶段使用一次
可改进：(a) 可以用开源模型替代部分 teacher 以降低成本；(b) 可以引入过程验证器 (PRM) 评估推理路径质量

评分¶

新颖性: ⭐⭐⭐⭐ 偏好树的构建和 T-DPO 的引入是创新贡献
实验充分度: ⭐⭐⭐⭐ 多 benchmark + 多消融 + 不同 student 模型 + 效率分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，pipeline 各阶段逻辑连贯
价值: ⭐⭐⭐⭐ 为多智能体蒸馏提供了系统化方法，T-DPO 可复用于其他场景