Towards Robust Real-World Spreadsheet Understanding with Multi-Agent Multi-Format Collaboration¶
会议: ACL 2026
arXiv: 2604.12282
代码: github
领域: LLM / 自然语言处理
关键词: 电子表格理解, 多智能体框架, 多格式推理, 结构化信息提取, 渐进式阅读
一句话总结¶
提出 SpreadsheetAgent,一种两阶段多智能体框架,通过代码执行、视觉和 LaTeX 三种格式的渐进式区域读取与交叉验证,在不超出 LLM 上下文限制的前提下实现鲁棒的真实世界电子表格理解。
研究背景与动机¶
领域现状:电子表格是企业报告、财务审计、科学数据管理中最常用的数据格式。LLM 在表格理解方面已有 Chain-of-Table、TableGPT、SheetAgent 等工作,但大多将表格视为纯文本(Markdown/HTML/LaTeX),忽略了布局语义。
现有痛点:(1) 真实电子表格包含层级表头、多 sheet、字体颜色、合并单元格等丰富视觉线索,纯文本格式无法完整捕获;(2) 实际电子表格规模巨大(数千行列),超出 LLM 的有效上下文处理能力;(3) 现有方法在一次性加载整个表格时容易丢失结构信息。
核心矛盾:电子表格的结构复杂性和规模都远超 LLM 的单次处理能力,如何在有限上下文预算下忠实保留布局语义。
本文目标:设计一种渐进式阅读-推理范式,通过多智能体协作逐步解析电子表格。
切入角度:采用"提取-验证"迭代循环——提取智能体通过代码执行/视觉/LaTeX 三种工具增量解析局部区域,验证智能体通过视觉和 LaTeX 两个通道交叉验证提取结果的忠实性。
核心 idea:用 YAML 格式作为中间表示保留结构语义,通过多格式冗余验证减少错误传播,使下游推理基于忠实的结构化表示进行。
方法详解¶
整体框架¶
两阶段流程:(1) 结构提取阶段(Structure Extraction Stage)——提取智能体(Extraction Agent)协调视觉范围智能体和 LaTeX 范围智能体,通过迭代的区域输入构建结构化草图和行列摘要;(2) 求解阶段(Solving Stage)——在提取的中间表示上进行任务驱动推理。两阶段通过提取-验证-修正的迭代循环紧密耦合。
关键设计¶
-
三工具协作的提取模块:提取智能体拥有三种辅助工具——代码执行(精确解析原始值和数值计算)、视觉范围描述智能体(将选定区域转为图像,用 VLM 提取颜色/边框等视觉线索)、LaTeX 范围描述智能体(将区域转为 LaTeX 表格,恢复层级表头和对齐结构)。通过分工协作产生紧凑的中间表示。
-
双通道交叉验证模块:验证智能体不是重新处理整个表格,而是选择性关注不确定或结构复杂的区域。视觉验证智能体将区域渲染为图像,检查提取结果是否匹配视觉布局;LaTeX 验证智能体将区域渲染为 LaTeX,检查结构忠实度。两通道都通过后返回验证通过,否则返回修正建议进入下一轮提取。
-
YAML 中间表示:选择 YAML 格式(而非 JSON 或自由文本)输出结构化提取结果,因为 YAML 人类可读、支持嵌套结构且解析简单。实验发现输出格式显著影响下游性能——YAML 比 JSON 减少歧义、稳定解析、提升与任务推理器的兼容性。
损失函数 / 训练策略¶
本文为推理框架,不涉及训练。使用 GLM-4.5V 作为 VLM、Qwen3-Coder-480B 作为 LLM,贪心解码(temperature=0),每轮最大 4K token 上下文,最多 20 轮工具调用。
实验关键数据¶
主实验(SpreadsheetBench)¶
| 模型 | Soft Cell | Soft Sheet | Soft Overall | Hard Cell | Hard Sheet | Hard Overall |
|---|---|---|---|---|---|---|
| GPT-4o | 13.49 | 22.51 | 16.96 | 10.52 | 17.66 | 13.27 |
| ChatGPT Agent | 38.27 | 30.48 | 35.27 | - | - | - |
| GPT-OSS-120B | 30.78 | 27.64 | 29.57 | 24.96 | 23.93 | 24.56 |
| + SpreadsheetAgent | 41.30 | 33.14 | 38.16 | 32.80 | 29.34 | 31.47 |
| Qwen3-Coder-480B | 30.36 | 31.05 | 30.63 | 22.82 | 27.07 | 24.45 |
| + SpreadsheetAgent | 45.63 | 35.33 | 41.67 | 36.90 | 31.05 | 34.65 |
| Human Performance | 75.56 | 65.00 | 71.33 | 66.67 | 55.00 | 62.00 |
消融实验(Qwen3-30B)¶
| 配置 | Soft Overall | Hard Overall |
|---|---|---|
| SpreadsheetAgent (完整) | 22.37 | 18.42 |
| w/o Tools & Verify | 20.18 | 16.01 |
| w/ JSON (替代 YAML) | 20.76 | 16.34 |
| w/o Structure | 19.70 | 15.46 |
| w/o Verify | 21.45 | 17.54 |
| w/o Vision Tool | 21.45 | 16.89 |
| w/o LaTeX Tool | 20.32 | 16.23 |
| w/o All (baseline) | 16.41 | 12.83 |
关键发现¶
- SpreadsheetAgent 使 GPT-OSS-120B 超越 ChatGPT Agent 2.89 个绝对百分点(38.16% vs 35.27%)
- Qwen3-Coder-480B + SpreadsheetAgent 达到最高 41.67%,但仍远低于人类的 71.33%
- 验证模块贡献约 1 个百分点提升,结构提取贡献约 2.7 个百分点
- LaTeX 工具比视觉工具贡献更大(移除后分别下降 2.05 vs 0.92)
- YAML 比 JSON 格式提升 1.61 个百分点
亮点与洞察¶
- 渐进阅读范式:区别于一次性加载,通过迭代的区域读取解决规模问题,同时保留布局语义
- 验证比解决更容易:验证模块的设计哲学——让模型检查既有结果比从头生成更可靠
- 多格式冗余:代码/视觉/LaTeX 三种格式互补,任一单一格式都无法完整捕获电子表格语义
局限与展望¶
- 与人类的 71.33% 仍有巨大差距,表明电子表格理解远未解决
- 多轮工具调用带来较高的计算开销
- 验证模块的修正建议质量依赖 VLM/LLM 的能力上限
- 未来可探索强化学习优化工具调用策略
相关工作与启发¶
- SheetAgent、SheetMind 等多智能体电子表格框架的系统性改进
- Chain-of-Table 的逐步推理思想在结构提取阶段的体现
- 验证模块的设计可推广到其他需要忠实性保证的信息提取任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 多格式渐进阅读 + 交叉验证的框架设计新颖且合理
- 实验充分度: ⭐⭐⭐⭐ 多模型对比、详细消融、多 benchmark 验证充分
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,算法伪代码规范
- 价值: ⭐⭐⭐⭐ 对真实世界电子表格理解的实际需求有重要推动作用
相关论文¶
- [ACL 2025] AgentDropout: Dynamic Agent Elimination for Token-Efficient and High-Performance LLM-Based Multi-Agent Collaboration
- [ACL 2026] Style Amnesia: Investigating Speaking Style Degradation and Mitigation in Multi-Turn Spoken Language Models
- [ACL 2026] MulDimIF: A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
- [NeurIPS 2025] Large Language Models Miss the Multi-Agent Mark
- [ACL 2025] MasRouter: Learning to Route LLMs for Multi-Agent Systems