Contrastive Learning on LLM Back Generation Treebank for Cross-domain Constituency Parsing¶

会议: ACL 2025
arXiv: 2505.20976
代码: 无
领域: 文本生成
关键词: 成分句法分析, 跨领域, 树库生成, 对比学习, LLM反向生成

一句话总结¶

提出 LLM 反向生成方法自动构建跨领域成分句法树库——给定只有领域关键词叶节点的不完整句法树，用 LLM 填充缺失词汇生成完整的跨领域句法树库，结合 span 级对比学习预训练，在 MCTB 五个目标领域上达到跨领域成分句法分析 SOTA。

领域现状：跨领域成分句法分析因多领域标注树库稀缺而仍是未解挑战。LLM 直接做句法分析效果差。
现有痛点：(a) 人工标注领域特定树库极其昂贵——需要语言学专家逐句标注完整句法结构；(b) LLM 虽然语言能力强但在精确的句法分析任务上表现不佳；(c) 简单数据增强方法无法保证句法结构的正确性。
核心矛盾：LLM 不擅长"分析"句法但擅长"生成"文本——能否反向利用这一能力？
本文要解决什么？ 利用 LLM 的文本生成能力自动构建跨领域树库，而非让 LLM 直接做句法分析。
切入角度："反向生成"——不是给文本让 LLM 分析句法，而是给（部分）句法结构让 LLM 填充文本。
核心idea一句话：给LLM一棵只有关键词的句法骨架，让它"长出"完整句子——反向利用LLM生成能力构建树库。

(1) LLM 反向生成——构建领域关键词+句法骨架的不完整树，让 LLM 填充缺失词汇生成完整的领域树库；(2) Span 级对比学习预训练——用生成的树库训练跨领域句法分析器，通过对比学习增强 span 表示的领域不变性。

LLM 反向生成（LLM Back Generation）:
做什么：将句法树的"分析"问题转化为 LLM 擅长的"生成"问题
核心思路：(a) 从目标领域提取关键词；(b) 在源领域句法树中替换叶节点为目标领域关键词，形成不完整的句法骨架；(c) 提示 LLM 在保持句法结构不变的前提下填充缺失词汇
设计动机：LLM 做句法分析准确率低（~60-70%），但填充缺失词汇是其强项
Span 级对比学习:
做什么：利用生成树库增强解析器的跨领域泛化
核心思路：同一句法角色（如 NP、VP）在不同领域的 span 应该有相似表示。对比学习拉近同类 span、推远不同类 span
设计动机：跨领域的核心挑战是"同一句法结构在不同领域看起来不同"——对比学习学到领域不变的句法特征