SR-LLM: Rethinking the Structured Representation in Large Language Model¶

会议: ACL 2025
arXiv: 2502.14352
代码: 无
领域: NLP / 结构化表示
关键词: 抽象语义表示, 结构化信息, LLM增强, 自然语言描述, 微调

一句话总结¶

提出 SR-LLM 框架，通过两种设置（training-free 的自然语言描述转换和 training-dependent 的混合数据微调）将结构化表示（AMR、PST、FOL）有效集成到 LLM 中，在 PAWS 等下游任务上分别取得 3.17% 和 12.38% 的提升，首次证明结构化表示能实质性增强 LLM 推理能力。

研究背景与动机¶

结构化表示（如 AMR 抽象语义表示、PST 句法分析树、FOL 一阶逻辑）在传统 NLP 中至关重要，但在 LLM 时代其角色变得模糊：

直接集成反而有害：先前工作（如 AMRCOT）将 AMR 等结构以代码格式直接加入 prompt，结果性能反而下降（PAWS 上 -5.18%），令人质疑结构化表示在 LLM 中的价值
编码格式不匹配猜想：作者假设下降原因是结构化信息以 LLM 训练语料中不常见的代码格式传入，而非结构化信息本身无用
缺乏有效集成范式：LLM 时代如何最优地利用结构化表示仍是开放挑战

核心思路：将结构化表示转换为 LLM 更熟悉的自然语言描述形式，让模型能真正理解并利用结构化信息。

方法详解¶

整体框架¶

SR-LLM 包含两种配置：(1) Training-Free：通过 SR-to-NLD 模块将结构化表示转换为自然语言描述，直接加入 prompt；(2) Training-Dependent：构建包含结构化表示的混合数据集 Gen-SR 进行 SFT 微调，建立任务与结构化信息的内部关联。

关键设计¶

SR-to-NLD（结构化表示到自然语言描述）：以 AMR 为例，分四个阶段——(Phase 0) 用 Penman 库将 AMR 图转为三元组；(Phase 1) 标识符实例化，将抽象标识符替换为具体概念；(Phase 2) 用预定义规则字典将三元组映射为自然语言句子；(Phase 3) 用 GPT-4o Mini 精炼生成的描述，确保流畅和连贯，并通过多次生成的投票机制减少幻觉。设计动机是让 LLM 看到的是它训练语料中常见的自然语言形式，而非陌生的代码格式。关键区别于传统 SR-to-Text（生成一句完整句子），SR-to-NLD 通过多句协作描述结构信息。
Gen-SR 混合数据微调：构建两部分数据——G(text) 仅包含原始文本的指令对，G(SR) 在指令对中加入结构化表示。采用 50% G(text) + 50% G(SR) 的混合比例进行联合训练。设计动机是让模型不仅学习下游任务，还建立任务与结构信息之间的内部关联，使推理时能更有效利用结构化信息。
多种结构化表示支持：框架支持三种 SR——AMR（抽象语义表示）、PST（句法分析树）和 FOL（一阶逻辑），分别捕捉语义、句法和逻辑层面的信息。每种 SR 都有对应的 NLD 转换方法。

损失函数 / 训练策略¶

Training-Free 设置不需要任何训练，直接在 prompt 中添加 SR-NLD
Training-Dependent 设置使用 Llama3.1-8B-Instruct 进行 SFT
联合训练跨 10 个任务的数据（非针对单一任务）
实验在 AMR、PST、FOL 三种 SR 上分别独立进行，结果取平均
使用 CoT 和 One-Shot 两种 prompt 策略

实验关键数据¶

主实验（Training-Free, Llama3.1-8b-Instruct）¶

数据集	指标	原始 Prompt	+ SR 代码格式	+ SR-NLD (本文)	提升
PAWS	F1	41.59	36.41 (-5.18)	44.77 (+3.17)	+8.36 vs SR
Logic	F1	15.48	14.20	18.27 (+2.79)	+4.07 vs SR
AGNEWS	F1	53.88	48.17	56.67 (+2.79)	+8.50 vs SR
WiC	F1	43.99	42.05	48.17 (+4.18)	+6.12 vs SR
SPIDER	F1	24.80	21.53	29.60 (+4.80)	+8.07 vs SR

主实验（Training-Dependent, Llama3.1-8b-Instruct）¶

微调策略	PAWS (F1)	SNLI (F1)	WiC (F1)	SST-2 (F1)	SPIDER (EM)
100% G(text)	68.94	35.53	66.97	75.59	41.20
100% G(SR) + SR prompt	75.39	56.62	70.82	81.62	40.60
50% G(SR) + 50% G(text) + SR prompt	81.04	54.92	74.68	83.72	48.93

消融实验¶

配置	关键指标	说明
AMRBART 生成 AMR vs GPT-4o	差异 <1%	SR 来源对结果影响小
Flawed AMR vs Gold AMR	差异显著 (4-9%)	SR 质量很重要
Gold AMR + NLD	最佳表现	NLD 转换放大了高质量 SR 的收益
不同混合比例	50-50 最优	平衡文本和 SR 至关重要

关键发现¶

将 SR 以自然语言描述形式集成一致优于代码格式，证实了编码格式不匹配假说
弱模型从结构化信息中获益更多：Llama3.1-8b 改善显著且一致，GPT-4o-mini 改善最小
Training-Dependent 在 PAWS 上获得 +12.38% 的巨大提升（从 68.66 到 81.04）
SR 质量很重要：低质量/有缺陷的 AMR 会显著损害性能（-4 到 -9%），而高质量 AMR-NLD 大幅提升
训练数据中 SR 与任务的关联建立后，推理时 SR 才能被有效利用
纯 SR 数据训练不如文本+SR 混合训练

亮点与洞察¶

首次正面证明 SR 能增强 LLM：扭转了"结构化表示在 LLM 时代无用"的判断，核心在于表示形式而非信息本身
自然语言是 LLM 的通用接口：无论多抽象的结构化信息，转化为自然语言描述后都能被 LLM 有效吸收
弱模型受益更多：结构化信息对缺乏自身推理能力的模型是有效补充，对强模型则边际效用递减
混合训练的重要性：纯结构数据不如混合数据，模型需要同时维持对文本和结构的理解

局限与展望¶

SR 生成依赖外部工具（AMR parser / GPT-4o），引入额外计算开销和潜在错误
NLD 转换中使用 GPT-4o Mini 精炼可能引入成本和不确定性
10 个任务覆盖有限，未在生成式任务（如摘要、对话）中验证
训练依赖设置的成本未详细分析
不同 SR 类型（AMR vs PST vs FOL）的适用任务差异未深入分析

评分¶

维度	分数 (1-5)	说明
创新性	4	简单但有效的洞察：形式而非内容是障碍
实用性	3	NLD 转换流程可复用，但依赖外部工具
实验充分度	4	10 个任务、3 个模型、多种 SR 的全面实验
写作质量	3	结构清晰但符号较多，部分地方冗长
总分	3.5	有价值的洞察，打破了 LLM 时代 SR 无用的迷思