Next Semantic Scale Prediction via Hierarchical Diffusion Language Models¶

会议: NeurIPS 2025
arXiv: 2510.08632
代码: https://github.com/zhouc20/HDLM
领域: Image Generation / Diffusion Language Model
关键词: 离散扩散模型, 层级词汇表, 语义尺度预测, 语言建模, CTMC

一句话总结¶

提出 HDLM（Hierarchical Diffusion Language Model），通过在 clean token 和 mask token 之间引入具有粗粒度语义的聚类 token 中间层级，实现"下一语义尺度预测"的离散扩散语言建模，推导闭式 ELBO，在 OpenWebText 上困惑度一致优于 MDLM/GIDD，随机扰动后生成困惑度降低 62%。

研究背景与动机¶

自回归语言模型是当前 SOTA，但"下一 token 预测"范式无法修正已生成 token。离散扩散模型因渐进去噪和修正能力受关注，主要有两类：

Masked 离散扩散（MDLM）：所有被 mask 的 token 共享同一 embedding，缺乏丰富语义；已解码 token 无法自纠正

Uniform 离散扩散（SEDD）：均匀扰动为随机 token，语义不一致，性能弱于 masked 扩散

GIDD 统一框架结合 masked 和 uniform 噪声，但噪声 token 仍缺乏丰富语义，自纠正能力仅来自 uniform 噪声（实际损害性能）。

核心矛盾：masked 扩散缺乏自纠正且中间状态语义贫乏；uniform 扩散语义不一致且性能差。

核心 idea：受视觉 VAR "下一尺度预测"启发，在语言 token 中引入语义层级——word token 和 mask token 之间插入 cluster token（由预训练 embedding 聚类），前向过程逐级映射到更抽象的祖先，逆向过程逐级预测更精细的语义。

方法详解¶

整体框架¶

HDLM 基于 CTMC 框架。层级词汇表：word tokens - cluster tokens - mask token。前向过程 x - c - m；逆向：模型从抽象逐步恢复精细。

关键设计¶

层级词汇表构建:
- 功能：在标准词汇和 mask 之间建立语义中间层
- 核心思路：用预训练模型 embedding 做 K-means 聚类，建立满射映射。最优聚类数约为词汇量的平方根
- 设计动机：cluster token 是"带高层语义的部分 mask"，比纯 mask 信息量更丰富，比随机 token 语义更一致，不确定性为自纠正提供空间
层级 CTMC 过程:
- 功能：定义层级扩散的前向-逆向过程
- 核心思路：边际分布为 Cat(z_t; alpha_t x + beta_{t,c} c(x) + beta_{t,m} m)。转移率矩阵为分块上三角结构（word to cluster to mask），mask 为吸收态
- 设计动机：分块结构确保 token 只向更高层级转移，逆向通过贝叶斯后验实现层级解码
闭式 ELBO（定理 3）:
- 功能：推导训练目标
- 核心思路：ELBO 分解为两个 CE 损失：cluster token 做 cluster 内 word 分类，mask token 做 cluster 级分类。两个权重期望恒等于 1（定理 4）
- 设计动机：自然形成由易到难的课程学习。MDLM 是 n=1 的特例
随机扰动（xi < 1）:
- 功能：训练时以概率 1-xi 将 token 扰动到错误 cluster
- 设计动机：训练模型从不准确上下文恢复正确 token，缓解 train-test gap。xi=0.8 时 Gen PPL 降 62%

实用技巧¶

Force transition 解码：限制 cluster token 只解码为 cluster 内 word token
灵活权重截断：裁剪极端权重稳定优化
Hard 训练模式：将 cluster 级 CE 替换为 token 级 CE，性能略降，验证渐进去噪优势

实验关键数据¶

主实验¶

OpenWebText（DiT 架构，GPT-2 tokenizer，131B tokens）：

模型	参数量	Valid PPL	Gen PPL
MDLM-small	170M	27.39	163.7
GIDD+-small	170M	25.82	170.2
HDLM-small-64	170M	23.36	144.2
HDLM-small-128	170M	23.25	148.0
HDLM-base-128	425M	19.22	139.9
GPT-2	117M	23.40	-

消融实验¶

聚类数实验：

n	Valid PPL	Gen PPL	说明
1 (=MDLM)	25.72	163.9	退化为 MDLM
64	23.36	144.2	最佳区间
128	23.25	148.0	Valid PPL 最佳
256	23.65	150.4	过多反而下降

随机扰动（HDLM-64）：

xi	Valid PPL	Gen PPL	说明
1.0	23.36	144.2	标准
0.9	23.54	69.76	Gen PPL 降 51%
0.8	25.93	54.15	Gen PPL 降 62%

关键发现¶

HDLM 一致优于 MDLM/GIDD，small 模型 Valid PPL 从 27.39/25.82 降至 23.25
base 模型 Valid PPL 19.22 可匹配自回归模型
最优聚类数约 sqrt(|V|)，将生成分为两个等复杂度阶段
随机扰动是杀手锏：Gen PPL 从 144.2 暴降至 54.15
MDLM 是 HDLM 的特例（n=1），理论和实验均验证
Force transition 在 xi<1 时仍有效，上下文鲁棒性比就地纠错更重要

亮点与洞察¶

"下一语义尺度预测"开创性地将视觉 VAR 多尺度思想迁移到语言领域
理论扎实：闭式 ELBO、权重不变性、MDLM 特例关系
随机扰动效果惊人（Gen PPL 降 62%），简单有效
ELBO 的课程学习解释很自然：cluster token 做簇内分类、mask token 做簇级分类

局限与展望¶

实验规模较小（170M/425M），7B+ 下表现待验证
仅 1 层中间层级，多层级实验留作未来工作
静态聚类策略，可学习映射可能更好
仅在语言建模验证，下游任务效果未知

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐