跳转至

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

日期: 2026-03-10
arXiv: 2603.09184
代码: 有
领域: LLM推理 / 多智能体
关键词: discrete diffusion, autoregressive, latent communication, multi-agent, reasoning

一句话总结

提出 Latent-DARM——首个在隐空间(而非文本空间)桥接离散扩散语言模型(DDLM,作为规划者)和自回归模型(ARM,作为执行者)的多智能体协作框架。通过训练 Linear-GELU-Linear 投影器将 DDLM 最后隐层特征映射到 ARM 嵌入空间,让 DDLM 的全局推理能力和 ARM 的顺序流畅性互补,在 DART-5 上从 27% 提升到 36%,在 AIME 2024 上从 0% 提升到 14%,且仅使用 DeepSeek-R1 2.2% 的 token 预算。

研究背景与动机

  1. 领域现状: 多智能体系统(MAS)几乎全部依赖 ARM(自回归模型),但 ARM 的顺序生成限制了全局推理和计划修订能力。DDLM(离散扩散语言模型)能做非顺序、可全局修订的生成,在规划任务上表现优异。

  2. 现有痛点:

    • DDLM 文本流畅性差:多步去噪过程中,同时揭露的 token 独立预测→可能产生不连贯文本
    • 文本接口瓶颈:如果 DDLM 生成文本计划→ARM 执行,文本的离散化(解码-重编码)会丢失 DDLM 内部的丰富推理信息
    • 嵌入空间不匹配:DDLM 双向训练 vs ARM 单向训练,产生完全不同的隐空间流形——直接传递隐状态不可行
  3. 核心矛盾: DDLM 擅长全局规划但文本不流畅,ARM 文本流畅但规划受限——通过文本接口合作会因为 DDLM 文本质量差而退化

  4. 切入角度: 人类认知过程——先灵活的内部思考(非顺序),再顺序语言表达。类比地,DDLM 做规划(内部),ARM 做执行(表达)

  5. 核心 idea 一句话: 训练一个轻量投影器在隐空间直接连接 DDLM 和 ARM,绕过文本中介的信息瓶颈

方法详解

整体框架

问题 \(q\) → DDLM(LLaDA-8B-Instruct)生成隐空间计划 \(h_{\text{DDLM}}\) → 投影器 \(f_\theta\) 映射到 ARM 空间 → 与问题嵌入拼接 → ARM(Llama-3.2-3B-Instruct)条件生成最终答案

关键设计

  1. 嵌入空间不匹配的解决方案——学习投影器:

    • 做什么:映射 DDLM 隐空间到 ARM 隐空间(\(\mathcal{H}_{\text{DDLM}} \to \mathcal{H}_{\text{ARM}}\)
    • 架构:Linear(4096→1024) → GELU → Linear(1024→ARM dim) → LlamaRMSNorm
    • 输入:DDLM 最终去噪步的最后隐层特征(64/128/256 token 长度可选)
    • 输出:投影后嵌入与问题 token 嵌入拼接作为 ARM 输入前缀
  2. 功能对齐训练目标(核心创新):

    • 做什么:以下游任务性能而非几何距离来训练投影器
    • 为什么不用距离对齐?ARM 不存在唯一的"正确"隐状态→\(\min_\theta \|f_\theta(h_{\text{DDLM}}) - h_{\text{ARM}}^*\|^2\) 是 ill-defined
    • 正确做法:\(\min_\theta \mathbb{E}_{(q,a)} [-\log p_{\text{ARM}}(a | f_\theta(h_{\text{DDLM}}(q)), q)]\)(公式5)
    • 冻结两个主模型,只训练投影器——通过梯度反传,ARM 的答案损失隐式塑造投影映射
    • 设计动机:功能等价 ≠ 几何相似——只要投影后的嵌入能让 ARM 输出正确答案就行
  3. 诊断分析框架(Setup X/Y):

    • Setup X:DDLM→ARM 失败但 ARM→ARM 成功 → 失败归因于 DDLM 规划
    • Setup Y:DDLM→DDLM 成功但 DDLM→ARM 失败 → 失败归因于 ARM 执行
    • 关键发现:文本接口下大部分失败在 Setup X(规划退化)→ 隐空间接口下失败转移到 Setup Y(执行成为瓶颈)→ 证明隐空间通信确实改善了规划传递

训练细节

  • 投影器训练数据:35K 样本(7 个数据集各 5K),ARC + DART1-5
  • 仅训练投影器 + ARM 的 LoRA(rank 8, alpha 32),主干冻结
  • AdamW, lr=5e-4, 10 epochs, 有效 batch size 8

实验关键数据

主实验

方法 DART-1 DART-5 AIME24 Token 数
Llama-3.2-3B (ARM only) 44.5 36.5 3.5 ~41
LLaDA→Llama (文本接口) 53.5 27.0 0.0 ~20
Latent-DARM (64 tok) 78.5 54.0 12.5 ~7
DeepSeek-R1 (7B reasoning) 89.0 61.5 28.5 ~3068

与推理模型对比

模型 DART-5 AIME24 Avg Token
Qwen3-1.7B 49.0 8.5 ~3106
DeepSeek-R1-7B 61.5 28.5 ~3068
Latent-DARM (3B+8B) 54.0 14.0 ~67

关键发现

  • 隐空间通信大幅优于文本接口:DART-5 54% vs 27%,AIME 14% vs 0%——文本解码确实严重破坏规划信息
  • Token 效率极高:DART-5 上仅用 DeepSeek-R1 的 2.2% token 就达到可比性能(54% vs 61.5%)
  • 64 token 计划长度最优:更长不一定更好——128/256 token 有更多重复率
  • 诊断分析证实:文本接口下大部分错误来自规划退化(Setup X 主导)→ 隐空间接口将规划错误降为次要
  • MMLU 上表现较差(44% vs 文本 52.5%),因为投射器仅在推理数据上训练→知识检索任务泛化不足

亮点与洞察

  • 首个成功的异构模型隐空间通信——DDLM 和 ARM 有完全不同的训练范式(双向 vs 单向),跨越这一鸿沟的投影器是核心贡献
  • "功能对齐而非几何对齐"的训练目标非常有洞察力——不追求嵌入空间的点到点映射,而是追求下游任务等效性。这个原则可广泛应用于任何异构模型间的通信
  • 诊断分析框架(Setup X/Y)提供了归因工具——能定量分析是规划还是执行导致的失败,方法论贡献独立于本文结果
  • 隐空间的信息效率:67 个 token 的工作量等于 3000+ token 的推理链——暗示大部分推理 token 是冗余的"语言包装"

局限性 / 可改进方向

  • 投影器仅在推理数据上训练:MMLU 等知识检索任务表现差→需要更多样化的训练数据
  • 仅测试了 planner→executor 单向通信:双向隐空间交互可能进一步提升
  • 投影器初始化敏感性未充分验证:随机初始化的稳定性需更多 seed 实验
  • 仅用 LLaDA-8B + Llama-3.2-3B 验证:更大规模或更多模型组合的表现未知
  • DDLM 生成计划的质量仍受限于扩散步数和解码策略

相关工作与启发

  • vs Chain of Continuous Thought (Hao et al.): 在单模型内部做隐空间推理;Latent-DARM 扩展到跨模型的隐空间通信
  • vs Block Diffusion (Arriola et al.): 在单模型中混合 ARM 和扩散生成;Latent-DARM 让两个独立模型通过隐空间协作
  • vs DeepSeek-R1: 靠长推理链实现强推理;Latent-DARM 暗示这些链中大部分是语言冗余→隐空间通信可能是更高效的推理范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个 DDLM-ARM 隐空间通信框架,功能对齐训练目标设计独到
  • 实验充分度: ⭐⭐⭐⭐ 多基准评估 + 诊断分析 + token 效率对比,但缺少更多模型组合
  • 写作质量: ⭐⭐⭐⭐⭐ 问题形式化严谨,诊断框架设计清晰,图示直观
  • 价值: ⭐⭐⭐⭐⭐ 对多智能体推理系统和异构模型协作有开创性意义