A Systematic Study of Compositional Syntactic Transformer Language Models¶

会议: ACL 2025
arXiv: 2506.22978
代码: GitHub
领域: 语言模型 / 句法建模
关键词: 句法语言模型, 成分句法, 组合函数, Transformer, 二叉化, 线性化, 注意力掩码

一句话总结¶

对组合型句法 Transformer 语言模型（Compositional SLMs）进行系统研究——识别四个关键设计维度（句法树二叉化、线性化方向、组合函数、子成分掩码），提出统一框架涵盖 16 种变体（含 13 种全新变体），在语言建模、句法泛化、摘要、对话和推理效率上全面评估，给出多条设计建议。

背景与动机¶

Transformer 语言模型缺乏句法结构的归纳偏置。句法语言模型（SLMs）通过联合建模线性化句法树和表面句子来注入句法偏置。组合型 SLMs 基于成分句法树，包含显式的自底向上成分表示组合。但现有模型（Transformer Grammars、GPST 等）在设计选择上差异大，且各选择对性能的具体影响尚未系统研究。

核心问题¶

组合型 SLMs 的哪些设计选择最影响性能？能否构建统一框架系统评估所有变体？

方法详解¶

四维设计空间¶

句法树二叉化：非二叉树（Nb） vs 二叉树（Bi，左二叉化 CNF）
线性化方向：自顶向下（Dn，前序遍历）vs 自底向上（Up，后序遍历）——Up 序列更短
组合函数：
内部（In）：将组合作为 Transformer 内的额外动作，用注意力掩码限制范围
外部（Ex）：单独的 Transformer 模块计算组合表示，再输入主 Transformer
子成分掩码：组合后掩码子成分（M，句法瓶颈）vs 不掩码（Nm，保留上下文）

16 种变体¶

2×2×2×2 = 16 种 SLM，命名如 Bi-Up-Ex-Nm。其中已有模型对应 3 种，其余 13 种为全新变体。

评估维度¶

语言建模：BLLIP-LG 上困惑度（通过采样 300 棵树近似边际化）
句法泛化：评估对句法结构的敏感性
下游任务：摘要和对话（选最佳 8 个变体+2 基线）
推理效率：词同步束搜索下的速度比较

实验关键数据¶

语言建模 PPL↓ + 句法泛化 SG↑¶

模型	PPL↓	SG↑
GPT2-token	17.31	64.1
GPT2-tree	19.97	73.1
Bi-Up-Ex-Nm	20.51	80.1
Bi-Up-Ex-M	24.15	82.4
Bi-Up-In-Nm	19.99	77.5

SLMs 在语言建模上略差于纯 Transformer，但句法泛化显著更好
PPL 和 SG 之间存在权衡——更强句法偏置降低 PPL 但提升 SG

关键设计建议¶

不建议子成分掩码 M：虽然 SG 更好，但 PPL 大幅恶化且下游任务受损
建议二叉树 + 外部组合函数：Bi-Up-Ex-Nm 在下游任务（摘要+对话）上表现最佳
自底向上 > 自顶向下：Up 序列更短，训练效率更高
外部组合 > 内部组合：避免 receptive-field 限制，且不增加序列长度

下游任务¶

最佳 SLMs 在摘要和对话上显著超越 GPT2-token 和 GPT2-tree——句法偏置对生成任务有益

亮点¶

系统性极强：16 种变体 × 5 个维度评估，是 SLM 设计的决定性参考
13 种全新变体：大幅扩展了现有知识
明确的设计建议：不建议掩码、建议二叉+外部组合+自底向上——直接可操作
PPL vs SG 权衡的清晰呈现：句法偏置有代价但有回报

局限性 / 可改进方向¶

模型规模小：GPT2-small 级别（768 维/12 层），更大规模未验证
仅英语：其他语言（尤其自由语序语言）可能有不同结论
银标句法树：使用 CRF parser 自动解析的树而非金标标注
未探索带标签的句法树：仅无标签成分句法

与相关工作的对比¶

vs Transformer Grammars（Nb-Dn-In-M）：本文框架的一个特例，已证明 M 不是最优选择
vs GPST（Bi-Up-Ex-Nm）：也是特例，但本文系统比较了所有变体并确认它是最优之一
vs GPT2-tree（无组合的句法LM）：有组合的 SLM 在 SG 和下游任务上均更好

启发与关联¶

句法偏置对 LM 的价值体现在泛化而非困惑度——评价维度很重要
组合操作是将结构知识注入 Transformer 的有效机制
设计选择间的交互效应复杂——系统实验比直觉更可靠

评分¶

新颖性: ⭐⭐⭐⭐ 13 种新变体+统一框架，但各组件非全新
实验充分度: ⭐⭐⭐⭐⭐ 16变体×5维度评估，非常系统
写作质量: ⭐⭐⭐⭐⭐ 框架描述精确，图表清晰
价值: ⭐⭐⭐⭐ 对句法语言建模社区的设计指南级贡献