Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning¶

日期: 2026-03-10
arXiv: 2603.09184
代码: 有
领域: LLM推理 / 多智能体
关键词: discrete diffusion, autoregressive, latent communication, multi-agent, reasoning

一句话总结¶

提出 Latent-DARM——首个在隐空间（而非文本空间）桥接离散扩散语言模型（DDLM，作为规划者）和自回归模型（ARM，作为执行者）的多智能体协作框架。通过训练 Linear-GELU-Linear 投影器将 DDLM 最后隐层特征映射到 ARM 嵌入空间，让 DDLM 的全局推理能力和 ARM 的顺序流畅性互补，在 DART-5 上从 27% 提升到 36%，在 AIME 2024 上从 0% 提升到 14%，且仅使用 DeepSeek-R1 2.2% 的 token 预算。

研究背景与动机¶

领域现状: 多智能体系统（MAS）几乎全部依赖 ARM（自回归模型），但 ARM 的顺序生成限制了全局推理和计划修订能力。DDLM（离散扩散语言模型）能做非顺序、可全局修订的生成，在规划任务上表现优异。
现有痛点:
- DDLM 文本流畅性差：多步去噪过程中，同时揭露的 token 独立预测→可能产生不连贯文本
- 文本接口瓶颈：如果 DDLM 生成文本计划→ARM 执行，文本的离散化（解码-重编码）会丢失 DDLM 内部的丰富推理信息
- 嵌入空间不匹配：DDLM 双向训练 vs ARM 单向训练，产生完全不同的隐空间流形——直接传递隐状态不可行
核心矛盾: DDLM 擅长全局规划但文本不流畅，ARM 文本流畅但规划受限——通过文本接口合作会因为 DDLM 文本质量差而退化
切入角度: 人类认知过程——先灵活的内部思考（非顺序），再顺序语言表达。类比地，DDLM 做规划（内部），ARM 做执行（表达）
核心 idea 一句话: 训练一个轻量投影器在隐空间直接连接 DDLM 和 ARM，绕过文本中介的信息瓶颈

方法详解¶

整体框架¶

问题 \(q\) → DDLM（LLaDA-8B-Instruct）生成隐空间计划 \(h_{\text{DDLM}}\) → 投影器 \(f_\theta\) 映射到 ARM 空间 → 与问题嵌入拼接 → ARM（Llama-3.2-3B-Instruct）条件生成最终答案

关键设计¶

嵌入空间不匹配的解决方案——学习投影器:
- 做什么：映射 DDLM 隐空间到 ARM 隐空间（\(\mathcal{H}_{\text{DDLM}} \to \mathcal{H}_{\text{ARM}}\)）
- 架构：Linear(4096→1024) → GELU → Linear(1024→ARM dim) → LlamaRMSNorm
- 输入：DDLM 最终去噪步的最后隐层特征（64/128/256 token 长度可选）
- 输出：投影后嵌入与问题 token 嵌入拼接作为 ARM 输入前缀
功能对齐训练目标（核心创新）:
- 做什么：以下游任务性能而非几何距离来训练投影器
- 为什么不用距离对齐？ARM 不存在唯一的"正确"隐状态→\(\min_\theta \|f_\theta(h_{\text{DDLM}}) - h_{\text{ARM}}^*\|^2\) 是 ill-defined
- 正确做法：\(\min_\theta \mathbb{E}_{(q,a)} [-\log p_{\text{ARM}}(a | f_\theta(h_{\text{DDLM}}(q)), q)]\)（公式5）
- 冻结两个主模型，只训练投影器——通过梯度反传，ARM 的答案损失隐式塑造投影映射
- 设计动机：功能等价 ≠ 几何相似——只要投影后的嵌入能让 ARM 输出正确答案就行
诊断分析框架（Setup X/Y）:
- Setup X：DDLM→ARM 失败但 ARM→ARM 成功 → 失败归因于 DDLM 规划
- Setup Y：DDLM→DDLM 成功但 DDLM→ARM 失败 → 失败归因于 ARM 执行
- 关键发现：文本接口下大部分失败在 Setup X（规划退化）→ 隐空间接口下失败转移到 Setup Y（执行成为瓶颈）→ 证明隐空间通信确实改善了规划传递

训练细节¶

投影器训练数据：35K 样本（7 个数据集各 5K），ARC + DART1-5
仅训练投影器 + ARM 的 LoRA（rank 8, alpha 32），主干冻结
AdamW, lr=5e-4, 10 epochs, 有效 batch size 8

实验关键数据¶

主实验¶

方法	DART-1	DART-5	AIME24	Token 数
Llama-3.2-3B (ARM only)	44.5	36.5	3.5	~41
LLaDA→Llama (文本接口)	53.5	27.0	0.0	~20
Latent-DARM (64 tok)	78.5	54.0	12.5	~7
DeepSeek-R1 (7B reasoning)	89.0	61.5	28.5	~3068

与推理模型对比¶

模型	DART-5	AIME24	Avg Token
Qwen3-1.7B	49.0	8.5	~3106
DeepSeek-R1-7B	61.5	28.5	~3068
Latent-DARM (3B+8B)	54.0	14.0	~67

关键发现¶

隐空间通信大幅优于文本接口：DART-5 54% vs 27%，AIME 14% vs 0%——文本解码确实严重破坏规划信息
Token 效率极高：DART-5 上仅用 DeepSeek-R1 的 2.2% token 就达到可比性能（54% vs 61.5%）
64 token 计划长度最优：更长不一定更好——128/256 token 有更多重复率
诊断分析证实：文本接口下大部分错误来自规划退化（Setup X 主导）→ 隐空间接口将规划错误降为次要
MMLU 上表现较差（44% vs 文本 52.5%），因为投射器仅在推理数据上训练→知识检索任务泛化不足

亮点与洞察¶

首个成功的异构模型隐空间通信——DDLM 和 ARM 有完全不同的训练范式（双向 vs 单向），跨越这一鸿沟的投影器是核心贡献
"功能对齐而非几何对齐"的训练目标非常有洞察力——不追求嵌入空间的点到点映射，而是追求下游任务等效性。这个原则可广泛应用于任何异构模型间的通信
诊断分析框架（Setup X/Y）提供了归因工具——能定量分析是规划还是执行导致的失败，方法论贡献独立于本文结果
隐空间的信息效率：67 个 token 的工作量等于 3000+ token 的推理链——暗示大部分推理 token 是冗余的"语言包装"

局限性 / 可改进方向¶

投影器仅在推理数据上训练：MMLU 等知识检索任务表现差→需要更多样化的训练数据
仅测试了 planner→executor 单向通信：双向隐空间交互可能进一步提升
投影器初始化敏感性未充分验证：随机初始化的稳定性需更多 seed 实验
仅用 LLaDA-8B + Llama-3.2-3B 验证：更大规模或更多模型组合的表现未知
DDLM 生成计划的质量仍受限于扩散步数和解码策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个 DDLM-ARM 隐空间通信框架，功能对齐训练目标设计独到
实验充分度: ⭐⭐⭐⭐ 多基准评估 + 诊断分析 + token 效率对比，但缺少更多模型组合
写作质量: ⭐⭐⭐⭐⭐ 问题形式化严谨，诊断框架设计清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 对多智能体推理系统和异构模型协作有开创性意义