Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning¶
日期: 2026-03-10
arXiv: 2603.09184
代码: 有
领域: LLM推理 / 多智能体
关键词: discrete diffusion, autoregressive, latent communication, multi-agent, reasoning
一句话总结¶
提出 Latent-DARM——首个在隐空间(而非文本空间)桥接离散扩散语言模型(DDLM,作为规划者)和自回归模型(ARM,作为执行者)的多智能体协作框架。通过训练 Linear-GELU-Linear 投影器将 DDLM 最后隐层特征映射到 ARM 嵌入空间,让 DDLM 的全局推理能力和 ARM 的顺序流畅性互补,在 DART-5 上从 27% 提升到 36%,在 AIME 2024 上从 0% 提升到 14%,且仅使用 DeepSeek-R1 2.2% 的 token 预算。
研究背景与动机¶
-
领域现状: 多智能体系统(MAS)几乎全部依赖 ARM(自回归模型),但 ARM 的顺序生成限制了全局推理和计划修订能力。DDLM(离散扩散语言模型)能做非顺序、可全局修订的生成,在规划任务上表现优异。
-
现有痛点:
- DDLM 文本流畅性差:多步去噪过程中,同时揭露的 token 独立预测→可能产生不连贯文本
- 文本接口瓶颈:如果 DDLM 生成文本计划→ARM 执行,文本的离散化(解码-重编码)会丢失 DDLM 内部的丰富推理信息
- 嵌入空间不匹配:DDLM 双向训练 vs ARM 单向训练,产生完全不同的隐空间流形——直接传递隐状态不可行
-
核心矛盾: DDLM 擅长全局规划但文本不流畅,ARM 文本流畅但规划受限——通过文本接口合作会因为 DDLM 文本质量差而退化
-
切入角度: 人类认知过程——先灵活的内部思考(非顺序),再顺序语言表达。类比地,DDLM 做规划(内部),ARM 做执行(表达)
-
核心 idea 一句话: 训练一个轻量投影器在隐空间直接连接 DDLM 和 ARM,绕过文本中介的信息瓶颈
方法详解¶
整体框架¶
问题 \(q\) → DDLM(LLaDA-8B-Instruct)生成隐空间计划 \(h_{\text{DDLM}}\) → 投影器 \(f_\theta\) 映射到 ARM 空间 → 与问题嵌入拼接 → ARM(Llama-3.2-3B-Instruct)条件生成最终答案
关键设计¶
-
嵌入空间不匹配的解决方案——学习投影器:
- 做什么:映射 DDLM 隐空间到 ARM 隐空间(\(\mathcal{H}_{\text{DDLM}} \to \mathcal{H}_{\text{ARM}}\))
- 架构:Linear(4096→1024) → GELU → Linear(1024→ARM dim) → LlamaRMSNorm
- 输入:DDLM 最终去噪步的最后隐层特征(64/128/256 token 长度可选)
- 输出:投影后嵌入与问题 token 嵌入拼接作为 ARM 输入前缀
-
功能对齐训练目标(核心创新):
- 做什么:以下游任务性能而非几何距离来训练投影器
- 为什么不用距离对齐?ARM 不存在唯一的"正确"隐状态→\(\min_\theta \|f_\theta(h_{\text{DDLM}}) - h_{\text{ARM}}^*\|^2\) 是 ill-defined
- 正确做法:\(\min_\theta \mathbb{E}_{(q,a)} [-\log p_{\text{ARM}}(a | f_\theta(h_{\text{DDLM}}(q)), q)]\)(公式5)
- 冻结两个主模型,只训练投影器——通过梯度反传,ARM 的答案损失隐式塑造投影映射
- 设计动机:功能等价 ≠ 几何相似——只要投影后的嵌入能让 ARM 输出正确答案就行
-
诊断分析框架(Setup X/Y):
- Setup X:DDLM→ARM 失败但 ARM→ARM 成功 → 失败归因于 DDLM 规划
- Setup Y:DDLM→DDLM 成功但 DDLM→ARM 失败 → 失败归因于 ARM 执行
- 关键发现:文本接口下大部分失败在 Setup X(规划退化)→ 隐空间接口下失败转移到 Setup Y(执行成为瓶颈)→ 证明隐空间通信确实改善了规划传递
训练细节¶
- 投影器训练数据:35K 样本(7 个数据集各 5K),ARC + DART1-5
- 仅训练投影器 + ARM 的 LoRA(rank 8, alpha 32),主干冻结
- AdamW, lr=5e-4, 10 epochs, 有效 batch size 8
实验关键数据¶
主实验¶
| 方法 | DART-1 | DART-5 | AIME24 | Token 数 |
|---|---|---|---|---|
| Llama-3.2-3B (ARM only) | 44.5 | 36.5 | 3.5 | ~41 |
| LLaDA→Llama (文本接口) | 53.5 | 27.0 | 0.0 | ~20 |
| Latent-DARM (64 tok) | 78.5 | 54.0 | 12.5 | ~7 |
| DeepSeek-R1 (7B reasoning) | 89.0 | 61.5 | 28.5 | ~3068 |
与推理模型对比¶
| 模型 | DART-5 | AIME24 | Avg Token |
|---|---|---|---|
| Qwen3-1.7B | 49.0 | 8.5 | ~3106 |
| DeepSeek-R1-7B | 61.5 | 28.5 | ~3068 |
| Latent-DARM (3B+8B) | 54.0 | 14.0 | ~67 |
关键发现¶
- 隐空间通信大幅优于文本接口:DART-5 54% vs 27%,AIME 14% vs 0%——文本解码确实严重破坏规划信息
- Token 效率极高:DART-5 上仅用 DeepSeek-R1 的 2.2% token 就达到可比性能(54% vs 61.5%)
- 64 token 计划长度最优:更长不一定更好——128/256 token 有更多重复率
- 诊断分析证实:文本接口下大部分错误来自规划退化(Setup X 主导)→ 隐空间接口将规划错误降为次要
- MMLU 上表现较差(44% vs 文本 52.5%),因为投射器仅在推理数据上训练→知识检索任务泛化不足
亮点与洞察¶
- 首个成功的异构模型隐空间通信——DDLM 和 ARM 有完全不同的训练范式(双向 vs 单向),跨越这一鸿沟的投影器是核心贡献
- "功能对齐而非几何对齐"的训练目标非常有洞察力——不追求嵌入空间的点到点映射,而是追求下游任务等效性。这个原则可广泛应用于任何异构模型间的通信
- 诊断分析框架(Setup X/Y)提供了归因工具——能定量分析是规划还是执行导致的失败,方法论贡献独立于本文结果
- 隐空间的信息效率:67 个 token 的工作量等于 3000+ token 的推理链——暗示大部分推理 token 是冗余的"语言包装"
局限性 / 可改进方向¶
- 投影器仅在推理数据上训练:MMLU 等知识检索任务表现差→需要更多样化的训练数据
- 仅测试了 planner→executor 单向通信:双向隐空间交互可能进一步提升
- 投影器初始化敏感性未充分验证:随机初始化的稳定性需更多 seed 实验
- 仅用 LLaDA-8B + Llama-3.2-3B 验证:更大规模或更多模型组合的表现未知
- DDLM 生成计划的质量仍受限于扩散步数和解码策略
相关工作与启发¶
- vs Chain of Continuous Thought (Hao et al.): 在单模型内部做隐空间推理;Latent-DARM 扩展到跨模型的隐空间通信
- vs Block Diffusion (Arriola et al.): 在单模型中混合 ARM 和扩散生成;Latent-DARM 让两个独立模型通过隐空间协作
- vs DeepSeek-R1: 靠长推理链实现强推理;Latent-DARM 暗示这些链中大部分是语言冗余→隐空间通信可能是更高效的推理范式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个 DDLM-ARM 隐空间通信框架,功能对齐训练目标设计独到
- 实验充分度: ⭐⭐⭐⭐ 多基准评估 + 诊断分析 + token 效率对比,但缺少更多模型组合
- 写作质量: ⭐⭐⭐⭐⭐ 问题形式化严谨,诊断框架设计清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 对多智能体推理系统和异构模型协作有开创性意义