StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text¶

会议: ACL 2025 (Long Paper)
arXiv: 2406.10621
代码: MikeGu721/StrucText-Eval
领域: LLM评估 / 结构化文本理解
关键词: 结构化文本推理, benchmark自动生成, 多语言结构, 复杂度可控评测, LLM能力边界

一句话总结¶

提出StrucText-Eval——一个覆盖8种结构化语言（JSON/YAML/XML/Markdown/LaTeX/Org/CSV/Tree）和29个任务的自动生成评测基准，共5,800个样本，通过可控的嵌套深度和结构宽度调节难度。实验揭示开源LLM在标准集最高仅74.9%准确率，困难集降至45.8%，而人类在困难集达92.6%，暴露了LLM在复杂结构推理上的严重不足。

背景与动机¶

结构化数据（JSON、YAML、XML、Markdown等）在企业数据中无处不在。LLM虽擅长处理非结构化文本，但结构化数据本质上也可以以纯文本形式呈现。一个自然的问题浮出水面：LLM能否直接从纯文本形式理解和推理结构化数据？

现有研究仅覆盖图、表格、JSON等有限类别，忽略了LaTeX、Markdown、YAML、Org、自定义树等广泛存在的结构化语言。此外，现有基准多依赖人工标注，限制了评测框架的可扩展性，且容易引发模型作弊问题。

核心问题¶

LLM能否直接理解以纯文本呈现的各类结构化数据？
如何设计一个自动化、可控难度、覆盖面广的评测框架来系统性地测评这一能力？
LLM的结构化文本推理能力与人类差距有多大？

方法详解¶

整体框架¶

提出一种自动评测数据生成方法，流程如下： 1. 定义复杂度参数：depth（嵌套深度）、width（每个非叶节点的子节点数）、column（每个节点的字段数） 2. 构建抽象结构树：根据上述参数自动生成抽象的层次结构 3. 套用问题模板：从预定义的29种任务模板中选择，生成对应问题 4. 发现ground truth：通过对应规则算法自动计算答案 5. 语言翻译：将抽象树和答案翻译为8种目标结构化语言（JSON/YAML/XML/Markdown/LaTeX/Org/CSV/自定义树）

关键设计¶

语义无关的纯结构推理：刻意移除语义内容（用无意义字符串填充），迫使模型仅从结构模式中推理，而非依赖语义先验知识——这是与现有工作的核心区别
8种结构化语言的分类学：
结构化数据：Tree（自定义格式）、Tabular（CSV）
半结构化数据：Object Notation（JSON/YAML/XML）、Markup Language（Markdown/LaTeX/Org）
8大类29个具体任务：
PathCompose (PC)：层次结构中的路径组合和多级索引推理
TextRetrieval (TR)：从各种文档格式中提取特定信息
PathWalk (PW)：从结构化文档中提取特定章节或子章节
Syntax (SY)：检测JSON/XML/YAML等格式的语法错误
Statistic (ST)：统计查询（如满足条件的员工数量）
Join (JO)：SQL式多表连接查询
Tree.Height (TH)：计算树高
Node.Depth (ND)：计算节点深度
双套件设计：
Test suite：3,712个样本，平均长度804字符，depth 1-2, width 1-2
Test-Hard suite：2,088个样本，平均长度16,535字符（最长类别达102,531字符），depth/width高达3×3，用于凸显LLM与人类的能力鸿沟
每个样本四字段：Reference（结构化文本）、Question、Requirement、Answer

实验关键数据¶

模型	Test (Naive)	Test-Hard (Base)	Test-Hard (3-Shot)
Qwen2-72B	78.4%	42.5%	61.4%
Llama-3.1-70B	75.4%	45.8%	58.4%
Llama-3.1-405B	74.9% (PS-CoT)	34.4%	48.7%
GPT-4o	-	51.1%	69.5%
GLM-4-Plus	-	47.3%	65.8%
Mistral-7B	~30-40%	7.0%	21.0%
人类	-	92.6%	-

关键发现： - 开源模型在标准集最高74.9%（Llama-3.1-405B + PS-CoT），困难集最高45.8% - GPT-4o在困难集3-shot设置下达69.5%，仍远低于人类的92.6% - JSON表现最好（训练数据偏差——JSON在互联网数据中频繁出现），自定义Tree/XML等表现较差 - 随深度/宽度增加，所有模型性能显著下降 - Self-CoT和PS-CoT对小模型（如Qwen2-7B）反而有害，因自主推理路径生成容易引入逻辑错误 - Few-shot从1-shot到3-shot持续提升，但5-shot时出现过拟合迹象 - w/ Hint（注入人类推理规则）通常有帮助，但在Hard集上改善有限

消融实验要点¶

评测指标比较：RougeL与Human Judge相关性达0.9932，显著优于Exact Match和BLEU
不同语言的难度差异大：JSON最容易（训练数据偏差），自定义Tree最难
不同任务的难度差异显著：PathCompose和Node.Depth相对较难，TextRetrieval和Statistic相对较易
模型尺度效应：同系列模型中，参数量越大表现越好（Qwen2-7B → 72B, Llama-3.1-8B → 70B → 405B）

亮点¶

语义无关设计是最大创新点：通过无意义字符串填充，强制评测纯粹的结构理解能力，避免模型利用语义捷径
可控复杂度生成：depth/width/column的参数化设计使得评测难度可精确调控，且可无限生成新样本防止数据泄露
覆盖面广：8种语言 × 29个任务的组合远超现有结构化文本理解基准
人类vs模型的鲜明对比：人类92.6% vs 最佳LLM 45.8%（困难集），清晰量化了能力鸿沟
自动生成方法防作弊：可随时生成新数据，避免benchmark被纳入训练集

局限性 / 可改进方向¶

仅覆盖8种语言和29个任务，现实中结构化语言和任务类型远不止于此（如SQL、TOML、Protocol Buffers等未涉及）
模型选择存在地域限制：无法测试Claude等模型，且基线模型已不够前沿（发表时为2024年模型）
语义无关设计是双刃剑：虽然评测纯结构能力，但现实场景中语义和结构的交互推理更为常见
评测指标局限：RougeL虽与人工判断相关性高，但对部分任务（如需精确匹配的语法检测）可能不够严格
未探索fine-tuning的系统性实验：仅在case study中简单展示了fine-tuning效果，缺乏系统的微调实验

与相关工作的对比¶

对比维度	StrucText-Eval	GraphQA/Struc-Bench等	TableLLM/TEMPTABQA
覆盖语言数	8种	1-2种	仅表格
任务数	29个	3-5个	特定领域
数据生成	自动+可控难度	人工标注	人工标注
语义依赖	语义无关	依赖语义	依赖语义
防作弊	可无限生成新数据	固定数据集	固定数据集

启发与关联¶

结构化推理是LLM当前的明显短板：即使是最强模型在复杂结构上的表现也远低于人类，这暗示当前LLM可能仅学到了结构的表面统计模式而非真正的解析能力
训练数据偏差直接影响结构理解：JSON最好因为训练数据多——对于提升特定格式的理解，增加对应训练数据可能是最直接的方法
CoT对结构推理的有效性存疑：在复杂结构任务中Self-CoT反而降低性能，说明结构推理可能需要不同于语义推理的prompt策略
可控复杂度benchmark的设计范式值得借鉴：通过参数化生成实现难度可控和防泄露，这一方法论可推广到其他评测场景

评分¶

新颖性: ⭐⭐⭐⭐ 语义无关的纯结构推理评测视角独特，自动生成方法精巧，但benchmark类工作本身范式较为成熟
实验充分度: ⭐⭐⭐⭐ 12个模型、6种prompt策略、8种语言×29任务的系统性评测，不过缺乏系统的fine-tuning实验及更新的模型（如Claude、Gemini Ultra）
写作质量: ⭐⭐⭐⭐ 结构清晰，分类学和实验设置描述详细，但部分表格数据量过大导致可读性降低
对我的价值: ⭐⭐⭐ 评测方法论（可控复杂度+防泄露生成）有参考价值；揭示了LLM结构推理弱点；但对非benchmark研究方向的直接启发有限