Thinking with Tables (TWT): Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning¶
日期: 2026-03-25
arXiv: 2603.24004
代码: https://github.com/kunyang-YU/Thinking-with-Tables
领域: 多模态/VLM / 表格理解 / 神经符号推理
关键词: tabular understanding, neuro-symbolic reasoning, code-based reasoning, MLLM, reinforcement learning
一句话总结¶
提出 TWT,一个面向表格-视觉多模态理解(TVMU)的程序辅助神经符号推理框架:通过代码交互式推理与沙盒环境交互实现信息提取和特征建模,采用两阶段训练(SFT + 自适应损失缩放 RL),在 8 个基准上平均超越 baseline 10%,性能匹敌或超越商业 SOTA LLM。
研究背景与动机¶
-
领域现状:MLLM 在图文理解上进展迅速,但表格作为关键实际数据模态在多模态学习中相对欠缺。表格-视觉多模态理解(TVMU)包含两类核心任务:多模态表格问答(QA)和多模态表格预测。
-
现有痛点:
- 结构多样性和数据不完整:表格形式多样(三线表、合并单元格、嵌入文档中),扫描/截图场景下数字文本可能缺失或错误识别
- 隐式复杂特征依赖:模型难以识别特征间的依赖关系和对预测目标的具体贡献
- 任务异质性:QA 需要跨模态推理,预测任务主要依赖表格内部结构,流程差异大
-
核心矛盾:现有方法要么依赖完整结构化表格(Chain-of-Table),要么受限于预定义操作集,要么只针对单一任务,无法统一处理 TVMU 的多样需求。
-
核心 idea:将表格理解建模为代码驱动的交互式推理过程——模型生成代码与外部沙盒环境交互,动态提取信息、建建模特征、执行计算,然后根据执行反馈继续推理。
方法详解¶
整体框架¶
输入:表格图像(视觉模态 V)+ 文本查询 Q + 外部沙盒环境 E(含原始表格文件/图像/预训练模型)
输出:最终答案(QA 答案或预测值)
交互协议:<analy> 推理分析 → <code> 代码执行 → <code_results> 执行反馈 → 多轮迭代 → <answer> 最终答案
关键设计¶
-
代码驱动的神经符号推理:
- 做什么:模型生成 Python 代码在沙盒环境中执行,实现表格解析、数据提取、特征工程、模型训练等操作
- 核心思路:将复杂表格推理分解为可解释的中间步骤,每步产生代码和执行结果,形成推理链
- 设计动机:纯神经网络难以精确数值计算和复杂特征建模,代码执行天然适合这些操作;沙盒环境提供安全的执行反馈闭环
-
Task-Oriented SFT(任务导向监督微调):
- 做什么:第一阶段训练模型掌握不同 TVMU 任务的处理流程
- 核心思路:用 Qwen3-VL-Plus 生成高质量推理轨迹数据,经答案验证后作为 SFT 训练集。训练时 mask 代码执行结果(防止记忆),只在模型生成的文本/代码 token 上计算损失
- 设计动机:不同任务的处理 pipeline 差异大,SFT 让模型先"学会"各类任务的解题范式
-
Adaptive Loss-Scaled GRPO(自适应损失缩放强化学习):
- 做什么:第二阶段 RL 进一步提升模型在复杂场景下的能力
- 核心思路:基于 GRPO,奖励函数聚焦答案正确性(回归任务用连续奖励 \(1 - \min(\frac{|\hat{y}-y|}{|y|+\epsilon}, 1)\),分类用 0/1)。创新点在于自适应损失缩放——只有正常退出的代码段参与梯度计算
- 设计动机:SFT 后模型已掌握格式规范,RL 阶段可专注于答案质量;排除错误代码避免 reward hacking
沙盒环境¶
- Python REPL + timeout 机制防止无限循环
- 预集成任务相关资源(数据文件、图像、预训练模型)
- 提供完整执行结果和错误信息供后续推理
实验关键数据¶
主实验(8 个 TVMU 基准)¶
| 模型 | TabMWP | WikiTQ | FinQA | TAT-QA | Adoption | SkinCA | Pawpularity | Paintings |
|---|---|---|---|---|---|---|---|---|
| GPT-5.1 | 92.50 | 40.82 | 47.68 | 56.38 | 26.12 | 65.51 | 0.366 | 0.098 |
| Qwen3VL-8B | 86.70 | 50.64 | 38.24 | 62.53 | 25.37 | 40.38 | 0.501 | 0.172 |
| TWT (ours) | 98.10 | 78.02 | 66.30 | 75.41 | 30.17 | 68.92 | 0.348 | 0.089 |
TWT 在 8 个任务上平均排名第一,在 QA 任务上大幅超越基线(如 WikiTQ 比 Qwen3VL-8B 高 27pp),在预测任务上也显著优于同量级模型。
消融实验¶
| 配置 | 效果 |
|---|---|
| w/o SFT (直接 RL) | 模型无法学会正确的任务流程,性能严重下降 |
| w/o RL (只 SFT) | 基本能执行但复杂推理和特征建模不够深入 |
| w/o 自适应损失缩放 | RL 训练不稳定,错误代码干扰梯度 |
| 无沙盒交互 (直接推理) | 数值计算和表格解析能力急剧下降 |
关键发现¶
- 代码交互式推理远强于纯文本推理:模型通过代码可以精确处理数值计算、数据过滤、特征工程,这些纯文本推理做不好
- SFT+RL 两阶段训练互补:SFT 教会基本范式,RL 提升复杂推理深度
- 表格不完整时性能下降显著(Figure 1),说明从图像中提取表格信息仍有挑战
亮点与洞察¶
- 代码作为推理中介的思路在表格场景特别合适:表格数据天然结构化,适合用代码操作(pandas/numpy),比让 LLM 纯文本推理靠谱得多
- 自适应损失缩放解决了 RL 训练中代码质量参差不齐的问题——只让成功执行的代码参与优化,巧妙避免了为代码质量设计复杂奖励
- MLLM+LLM 协作生成训练数据的策略有效:MLLM 处理视觉理解,LLM 做精确计算,各取所长
局限性 / 可改进方向¶
- 沙盒环境需要预配置任务资源,新任务需要额外设置
- 代码生成仍可能产生错误或无限循环,timeout 是硬限制不是根本解决
- 训练数据合成依赖 Qwen3-VL-Plus,质量受限于 teacher 模型能力
- 未探索更复杂的表格场景(如嵌套表格、跨页关联表格)
相关工作与启发¶
- vs Chain-of-Table: CoT 用预定义表格操作分步推理,操作集有限;TWT 用通用代码执行,灵活性更强
- vs OCTree: OCTree 只做表格预测的特征工程,TWT 统一了 QA 和预测两类任务
- vs 纯 MLLM (Qwen3VL): 直接用 MLLM 做表格推理在数值计算和特征建模上弱,TWT 通过代码交互大幅提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 统一代码驱动框架处理 TVMU + 自适应损失缩放 RL 有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 8 个基准 + QA/预测双任务 + 多消融 + 与商业 API 对比
- 写作质量: ⭐⭐⭐⭐ 问题分析系统(三大挑战),方法动机清晰
- 价值: ⭐⭐⭐⭐ 代码交互推理范式对表格 AI 有实际应用价值,代码开源