StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text¶
会议: ACL 2025 (Long Paper)
arXiv: 2406.10621
代码: MikeGu721/StrucText-Eval
领域: LLM评估 / 结构化文本理解
关键词: 结构化文本推理, benchmark自动生成, 多语言结构, 复杂度可控评测, LLM能力边界
一句话总结¶
提出StrucText-Eval——一个覆盖8种结构化语言(JSON/YAML/XML/Markdown/LaTeX/Org/CSV/Tree)和29个任务的自动生成评测基准,共5,800个样本,通过可控的嵌套深度和结构宽度调节难度。实验揭示开源LLM在标准集最高仅74.9%准确率,困难集降至45.8%,而人类在困难集达92.6%,暴露了LLM在复杂结构推理上的严重不足。
背景与动机¶
结构化数据(JSON、YAML、XML、Markdown等)在企业数据中无处不在。LLM虽擅长处理非结构化文本,但结构化数据本质上也可以以纯文本形式呈现。一个自然的问题浮出水面:LLM能否直接从纯文本形式理解和推理结构化数据?
现有研究仅覆盖图、表格、JSON等有限类别,忽略了LaTeX、Markdown、YAML、Org、自定义树等广泛存在的结构化语言。此外,现有基准多依赖人工标注,限制了评测框架的可扩展性,且容易引发模型作弊问题。
核心问题¶
- LLM能否直接理解以纯文本呈现的各类结构化数据?
- 如何设计一个自动化、可控难度、覆盖面广的评测框架来系统性地测评这一能力?
- LLM的结构化文本推理能力与人类差距有多大?
方法详解¶
整体框架¶
提出一种自动评测数据生成方法,流程如下: 1. 定义复杂度参数:depth(嵌套深度)、width(每个非叶节点的子节点数)、column(每个节点的字段数) 2. 构建抽象结构树:根据上述参数自动生成抽象的层次结构 3. 套用问题模板:从预定义的29种任务模板中选择,生成对应问题 4. 发现ground truth:通过对应规则算法自动计算答案 5. 语言翻译:将抽象树和答案翻译为8种目标结构化语言(JSON/YAML/XML/Markdown/LaTeX/Org/CSV/自定义树)
关键设计¶
- 语义无关的纯结构推理:刻意移除语义内容(用无意义字符串填充),迫使模型仅从结构模式中推理,而非依赖语义先验知识——这是与现有工作的核心区别
- 8种结构化语言的分类学:
- 结构化数据:Tree(自定义格式)、Tabular(CSV)
- 半结构化数据:Object Notation(JSON/YAML/XML)、Markup Language(Markdown/LaTeX/Org)
- 8大类29个具体任务:
- PathCompose (PC):层次结构中的路径组合和多级索引推理
- TextRetrieval (TR):从各种文档格式中提取特定信息
- PathWalk (PW):从结构化文档中提取特定章节或子章节
- Syntax (SY):检测JSON/XML/YAML等格式的语法错误
- Statistic (ST):统计查询(如满足条件的员工数量)
- Join (JO):SQL式多表连接查询
- Tree.Height (TH):计算树高
- Node.Depth (ND):计算节点深度
- 双套件设计:
- Test suite:3,712个样本,平均长度804字符,depth 1-2, width 1-2
- Test-Hard suite:2,088个样本,平均长度16,535字符(最长类别达102,531字符),depth/width高达3×3,用于凸显LLM与人类的能力鸿沟
- 每个样本四字段:Reference(结构化文本)、Question、Requirement、Answer
实验关键数据¶
| 模型 | Test (Naive) | Test-Hard (Base) | Test-Hard (3-Shot) |
|---|---|---|---|
| Qwen2-72B | 78.4% | 42.5% | 61.4% |
| Llama-3.1-70B | 75.4% | 45.8% | 58.4% |
| Llama-3.1-405B | 74.9% (PS-CoT) | 34.4% | 48.7% |
| GPT-4o | - | 51.1% | 69.5% |
| GLM-4-Plus | - | 47.3% | 65.8% |
| Mistral-7B | ~30-40% | 7.0% | 21.0% |
| 人类 | - | 92.6% | - |
关键发现: - 开源模型在标准集最高74.9%(Llama-3.1-405B + PS-CoT),困难集最高45.8% - GPT-4o在困难集3-shot设置下达69.5%,仍远低于人类的92.6% - JSON表现最好(训练数据偏差——JSON在互联网数据中频繁出现),自定义Tree/XML等表现较差 - 随深度/宽度增加,所有模型性能显著下降 - Self-CoT和PS-CoT对小模型(如Qwen2-7B)反而有害,因自主推理路径生成容易引入逻辑错误 - Few-shot从1-shot到3-shot持续提升,但5-shot时出现过拟合迹象 - w/ Hint(注入人类推理规则)通常有帮助,但在Hard集上改善有限
消融实验要点¶
- 评测指标比较:RougeL与Human Judge相关性达0.9932,显著优于Exact Match和BLEU
- 不同语言的难度差异大:JSON最容易(训练数据偏差),自定义Tree最难
- 不同任务的难度差异显著:PathCompose和Node.Depth相对较难,TextRetrieval和Statistic相对较易
- 模型尺度效应:同系列模型中,参数量越大表现越好(Qwen2-7B → 72B, Llama-3.1-8B → 70B → 405B)
亮点¶
- 语义无关设计是最大创新点:通过无意义字符串填充,强制评测纯粹的结构理解能力,避免模型利用语义捷径
- 可控复杂度生成:depth/width/column的参数化设计使得评测难度可精确调控,且可无限生成新样本防止数据泄露
- 覆盖面广:8种语言 × 29个任务的组合远超现有结构化文本理解基准
- 人类vs模型的鲜明对比:人类92.6% vs 最佳LLM 45.8%(困难集),清晰量化了能力鸿沟
- 自动生成方法防作弊:可随时生成新数据,避免benchmark被纳入训练集
局限性 / 可改进方向¶
- 仅覆盖8种语言和29个任务,现实中结构化语言和任务类型远不止于此(如SQL、TOML、Protocol Buffers等未涉及)
- 模型选择存在地域限制:无法测试Claude等模型,且基线模型已不够前沿(发表时为2024年模型)
- 语义无关设计是双刃剑:虽然评测纯结构能力,但现实场景中语义和结构的交互推理更为常见
- 评测指标局限:RougeL虽与人工判断相关性高,但对部分任务(如需精确匹配的语法检测)可能不够严格
- 未探索fine-tuning的系统性实验:仅在case study中简单展示了fine-tuning效果,缺乏系统的微调实验
与相关工作的对比¶
| 对比维度 | StrucText-Eval | GraphQA/Struc-Bench等 | TableLLM/TEMPTABQA |
|---|---|---|---|
| 覆盖语言数 | 8种 | 1-2种 | 仅表格 |
| 任务数 | 29个 | 3-5个 | 特定领域 |
| 数据生成 | 自动+可控难度 | 人工标注 | 人工标注 |
| 语义依赖 | 语义无关 | 依赖语义 | 依赖语义 |
| 防作弊 | 可无限生成新数据 | 固定数据集 | 固定数据集 |
启发与关联¶
- 结构化推理是LLM当前的明显短板:即使是最强模型在复杂结构上的表现也远低于人类,这暗示当前LLM可能仅学到了结构的表面统计模式而非真正的解析能力
- 训练数据偏差直接影响结构理解:JSON最好因为训练数据多——对于提升特定格式的理解,增加对应训练数据可能是最直接的方法
- CoT对结构推理的有效性存疑:在复杂结构任务中Self-CoT反而降低性能,说明结构推理可能需要不同于语义推理的prompt策略
- 可控复杂度benchmark的设计范式值得借鉴:通过参数化生成实现难度可控和防泄露,这一方法论可推广到其他评测场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 语义无关的纯结构推理评测视角独特,自动生成方法精巧,但benchmark类工作本身范式较为成熟
- 实验充分度: ⭐⭐⭐⭐ 12个模型、6种prompt策略、8种语言×29任务的系统性评测,不过缺乏系统的fine-tuning实验及更新的模型(如Claude、Gemini Ultra)
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分类学和实验设置描述详细,但部分表格数据量过大导致可读性降低
- 对我的价值: ⭐⭐⭐ 评测方法论(可控复杂度+防泄露生成)有参考价值;揭示了LLM结构推理弱点;但对非benchmark研究方向的直接启发有限