Thinking with Tables (TWT): Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning¶

日期: 2026-03-25
arXiv: 2603.24004
代码: https://github.com/kunyang-YU/Thinking-with-Tables
领域: 多模态/VLM / 表格理解 / 神经符号推理
关键词: tabular understanding, neuro-symbolic reasoning, code-based reasoning, MLLM, reinforcement learning

一句话总结¶

提出 TWT，一个面向表格-视觉多模态理解（TVMU）的程序辅助神经符号推理框架：通过代码交互式推理与沙盒环境交互实现信息提取和特征建模，采用两阶段训练（SFT + 自适应损失缩放 RL），在 8 个基准上平均超越 baseline 10%，性能匹敌或超越商业 SOTA LLM。

研究背景与动机¶

领域现状：MLLM 在图文理解上进展迅速，但表格作为关键实际数据模态在多模态学习中相对欠缺。表格-视觉多模态理解（TVMU）包含两类核心任务：多模态表格问答（QA）和多模态表格预测。
现有痛点：
- 结构多样性和数据不完整：表格形式多样（三线表、合并单元格、嵌入文档中），扫描/截图场景下数字文本可能缺失或错误识别
- 隐式复杂特征依赖：模型难以识别特征间的依赖关系和对预测目标的具体贡献
- 任务异质性：QA 需要跨模态推理，预测任务主要依赖表格内部结构，流程差异大
核心矛盾：现有方法要么依赖完整结构化表格（Chain-of-Table），要么受限于预定义操作集，要么只针对单一任务，无法统一处理 TVMU 的多样需求。
核心 idea：将表格理解建模为代码驱动的交互式推理过程——模型生成代码与外部沙盒环境交互，动态提取信息、建建模特征、执行计算，然后根据执行反馈继续推理。

方法详解¶

整体框架¶

输入：表格图像（视觉模态 V）+ 文本查询 Q + 外部沙盒环境 E（含原始表格文件/图像/预训练模型）
输出：最终答案（QA 答案或预测值）
交互协议：<analy> 推理分析 → <code> 代码执行 → <code_results> 执行反馈 → 多轮迭代 → <answer> 最终答案

关键设计¶

代码驱动的神经符号推理:
- 做什么：模型生成 Python 代码在沙盒环境中执行，实现表格解析、数据提取、特征工程、模型训练等操作
- 核心思路：将复杂表格推理分解为可解释的中间步骤，每步产生代码和执行结果，形成推理链
- 设计动机：纯神经网络难以精确数值计算和复杂特征建模，代码执行天然适合这些操作；沙盒环境提供安全的执行反馈闭环
Task-Oriented SFT（任务导向监督微调）:
- 做什么：第一阶段训练模型掌握不同 TVMU 任务的处理流程
- 核心思路：用 Qwen3-VL-Plus 生成高质量推理轨迹数据，经答案验证后作为 SFT 训练集。训练时 mask 代码执行结果（防止记忆），只在模型生成的文本/代码 token 上计算损失
- 设计动机：不同任务的处理 pipeline 差异大，SFT 让模型先"学会"各类任务的解题范式
Adaptive Loss-Scaled GRPO（自适应损失缩放强化学习）:
- 做什么：第二阶段 RL 进一步提升模型在复杂场景下的能力
- 核心思路：基于 GRPO，奖励函数聚焦答案正确性（回归任务用连续奖励 \(1 - \min(\frac{|\hat{y}-y|}{|y|+\epsilon}, 1)\)，分类用 0/1）。创新点在于自适应损失缩放——只有正常退出的代码段参与梯度计算
- 设计动机：SFT 后模型已掌握格式规范，RL 阶段可专注于答案质量；排除错误代码避免 reward hacking

沙盒环境¶

Python REPL + timeout 机制防止无限循环
预集成任务相关资源（数据文件、图像、预训练模型）
提供完整执行结果和错误信息供后续推理

实验关键数据¶

主实验（8 个 TVMU 基准）¶

模型	TabMWP	WikiTQ	FinQA	TAT-QA	Adoption	SkinCA	Pawpularity	Paintings
GPT-5.1	92.50	40.82	47.68	56.38	26.12	65.51	0.366	0.098
Qwen3VL-8B	86.70	50.64	38.24	62.53	25.37	40.38	0.501	0.172
TWT (ours)	98.10	78.02	66.30	75.41	30.17	68.92	0.348	0.089

TWT 在 8 个任务上平均排名第一，在 QA 任务上大幅超越基线（如 WikiTQ 比 Qwen3VL-8B 高 27pp），在预测任务上也显著优于同量级模型。

消融实验¶

配置	效果
w/o SFT (直接 RL)	模型无法学会正确的任务流程，性能严重下降
w/o RL (只 SFT)	基本能执行但复杂推理和特征建模不够深入
w/o 自适应损失缩放	RL 训练不稳定，错误代码干扰梯度
无沙盒交互 (直接推理)	数值计算和表格解析能力急剧下降

关键发现¶

代码交互式推理远强于纯文本推理：模型通过代码可以精确处理数值计算、数据过滤、特征工程，这些纯文本推理做不好
SFT+RL 两阶段训练互补：SFT 教会基本范式，RL 提升复杂推理深度
表格不完整时性能下降显著（Figure 1），说明从图像中提取表格信息仍有挑战

亮点与洞察¶

代码作为推理中介的思路在表格场景特别合适：表格数据天然结构化，适合用代码操作（pandas/numpy），比让 LLM 纯文本推理靠谱得多
自适应损失缩放解决了 RL 训练中代码质量参差不齐的问题——只让成功执行的代码参与优化，巧妙避免了为代码质量设计复杂奖励
MLLM+LLM 协作生成训练数据的策略有效：MLLM 处理视觉理解，LLM 做精确计算，各取所长

局限性 / 可改进方向¶

沙盒环境需要预配置任务资源，新任务需要额外设置
代码生成仍可能产生错误或无限循环，timeout 是硬限制不是根本解决
训练数据合成依赖 Qwen3-VL-Plus，质量受限于 teacher 模型能力
未探索更复杂的表格场景（如嵌套表格、跨页关联表格）

评分¶

新颖性: ⭐⭐⭐⭐ 统一代码驱动框架处理 TVMU + 自适应损失缩放 RL 有创新
实验充分度: ⭐⭐⭐⭐⭐ 8 个基准 + QA/预测双任务 + 多消融 + 与商业 API 对比
写作质量: ⭐⭐⭐⭐ 问题分析系统（三大挑战），方法动机清晰
价值: ⭐⭐⭐⭐ 代码交互推理范式对表格 AI 有实际应用价值，代码开源