Next Semantic Scale Prediction via Hierarchical Diffusion Language Models¶
会议: NeurIPS 2025
arXiv: 2510.08632
代码: https://github.com/zhouc20/HDLM
领域: Image Generation / Diffusion Language Model
关键词: 离散扩散模型, 层级词汇表, 语义尺度预测, 语言建模, CTMC
一句话总结¶
提出 HDLM(Hierarchical Diffusion Language Model),通过在 clean token 和 mask token 之间引入具有粗粒度语义的聚类 token 中间层级,实现"下一语义尺度预测"的离散扩散语言建模,推导闭式 ELBO,在 OpenWebText 上困惑度一致优于 MDLM/GIDD,随机扰动后生成困惑度降低 62%。
研究背景与动机¶
自回归语言模型是当前 SOTA,但"下一 token 预测"范式无法修正已生成 token。离散扩散模型因渐进去噪和修正能力受关注,主要有两类:
Masked 离散扩散(MDLM):所有被 mask 的 token 共享同一 embedding,缺乏丰富语义;已解码 token 无法自纠正
Uniform 离散扩散(SEDD):均匀扰动为随机 token,语义不一致,性能弱于 masked 扩散
GIDD 统一框架结合 masked 和 uniform 噪声,但噪声 token 仍缺乏丰富语义,自纠正能力仅来自 uniform 噪声(实际损害性能)。
核心矛盾:masked 扩散缺乏自纠正且中间状态语义贫乏;uniform 扩散语义不一致且性能差。
核心 idea:受视觉 VAR "下一尺度预测"启发,在语言 token 中引入语义层级——word token 和 mask token 之间插入 cluster token(由预训练 embedding 聚类),前向过程逐级映射到更抽象的祖先,逆向过程逐级预测更精细的语义。
方法详解¶
整体框架¶
HDLM 基于 CTMC 框架。层级词汇表:word tokens - cluster tokens - mask token。前向过程 x - c - m;逆向:模型从抽象逐步恢复精细。
关键设计¶
-
层级词汇表构建:
- 功能:在标准词汇和 mask 之间建立语义中间层
- 核心思路:用预训练模型 embedding 做 K-means 聚类,建立满射映射。最优聚类数约为词汇量的平方根
- 设计动机:cluster token 是"带高层语义的部分 mask",比纯 mask 信息量更丰富,比随机 token 语义更一致,不确定性为自纠正提供空间
-
层级 CTMC 过程:
- 功能:定义层级扩散的前向-逆向过程
- 核心思路:边际分布为 Cat(z_t; alpha_t x + beta_{t,c} c(x) + beta_{t,m} m)。转移率矩阵为分块上三角结构(word to cluster to mask),mask 为吸收态
- 设计动机:分块结构确保 token 只向更高层级转移,逆向通过贝叶斯后验实现层级解码
-
闭式 ELBO(定理 3):
- 功能:推导训练目标
- 核心思路:ELBO 分解为两个 CE 损失:cluster token 做 cluster 内 word 分类,mask token 做 cluster 级分类。两个权重期望恒等于 1(定理 4)
- 设计动机:自然形成由易到难的课程学习。MDLM 是 n=1 的特例
-
随机扰动(xi < 1):
- 功能:训练时以概率 1-xi 将 token 扰动到错误 cluster
- 设计动机:训练模型从不准确上下文恢复正确 token,缓解 train-test gap。xi=0.8 时 Gen PPL 降 62%
实用技巧¶
- Force transition 解码:限制 cluster token 只解码为 cluster 内 word token
- 灵活权重截断:裁剪极端权重稳定优化
- Hard 训练模式:将 cluster 级 CE 替换为 token 级 CE,性能略降,验证渐进去噪优势
实验关键数据¶
主实验¶
OpenWebText(DiT 架构,GPT-2 tokenizer,131B tokens):
| 模型 | 参数量 | Valid PPL | Gen PPL |
|---|---|---|---|
| MDLM-small | 170M | 27.39 | 163.7 |
| GIDD+-small | 170M | 25.82 | 170.2 |
| HDLM-small-64 | 170M | 23.36 | 144.2 |
| HDLM-small-128 | 170M | 23.25 | 148.0 |
| HDLM-base-128 | 425M | 19.22 | 139.9 |
| GPT-2 | 117M | 23.40 | - |
消融实验¶
聚类数实验:
| n | Valid PPL | Gen PPL | 说明 |
|---|---|---|---|
| 1 (=MDLM) | 25.72 | 163.9 | 退化为 MDLM |
| 64 | 23.36 | 144.2 | 最佳区间 |
| 128 | 23.25 | 148.0 | Valid PPL 最佳 |
| 256 | 23.65 | 150.4 | 过多反而下降 |
随机扰动(HDLM-64):
| xi | Valid PPL | Gen PPL | 说明 |
|---|---|---|---|
| 1.0 | 23.36 | 144.2 | 标准 |
| 0.9 | 23.54 | 69.76 | Gen PPL 降 51% |
| 0.8 | 25.93 | 54.15 | Gen PPL 降 62% |
关键发现¶
- HDLM 一致优于 MDLM/GIDD,small 模型 Valid PPL 从 27.39/25.82 降至 23.25
- base 模型 Valid PPL 19.22 可匹配自回归模型
- 最优聚类数约 sqrt(|V|),将生成分为两个等复杂度阶段
- 随机扰动是杀手锏:Gen PPL 从 144.2 暴降至 54.15
- MDLM 是 HDLM 的特例(n=1),理论和实验均验证
- Force transition 在 xi<1 时仍有效,上下文鲁棒性比就地纠错更重要
亮点与洞察¶
- "下一语义尺度预测"开创性地将视觉 VAR 多尺度思想迁移到语言领域
- 理论扎实:闭式 ELBO、权重不变性、MDLM 特例关系
- 随机扰动效果惊人(Gen PPL 降 62%),简单有效
- ELBO 的课程学习解释很自然:cluster token 做簇内分类、mask token 做簇级分类
局限与展望¶
- 实验规模较小(170M/425M),7B+ 下表现待验证
- 仅 1 层中间层级,多层级实验留作未来工作
- 静态聚类策略,可学习映射可能更好
- 仅在语言建模验证,下游任务效果未知
相关工作与启发¶
- 与 MDLM、GIDD 形成演进链:masked - masked+uniform - hierarchical
- 随机扰动缓解 train-test gap 与连续扩散中 noise perturbation 异曲同工
- 层级词汇表+课程学习可迁移到其他离散生成任务
- LLaDA、Dream 等大规模扩散语言模型表明 HDLM 有很大 scaling 潜力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐
相关论文¶
- [NeurIPS 2025] Non-Markovian Discrete Diffusion with Causal Language Models
- [ICML 2025] Generative Audio Language Modeling with Continuous-Valued Tokens and Masked Next-Token Prediction
- [ICML 2025] NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction
- [NeurIPS 2025] MMaDA: Multimodal Large Diffusion Language Models
- [ICCV 2025] PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs